DeepSeek-OCR:探索视觉文本压缩的边界 (附使用指南)

图片[1]-DeepSeek-OCR:探索视觉文本压缩的边界 (附使用指南)-🎉数字奇遇🎉

DeepSeek-OCR 是一款由 DeepSeek AI 开发的先进的光学字符识别(OCR)模型,旨在探索视觉文本压缩的极限。该模型能够将图像中的文本信息高效地提取出来,并进行转换,例如转换为 Markdown 格式。该网页提供 DeepSeek-OCR 的相关信息,包括 GitHub 仓库链接、模型下载地址、论文链接等,并提供了详细的使用指南,方便用户快速上手。

DeepSeek-OCR 的核心功能与优势

DeepSeek-OCR 的核心功能是将图像中的文本信息识别出来,并可以根据用户的需求进行转换。例如,用户可以将扫描的文档图像转换为可编辑的文本格式,或者将包含文本的图片转换为 Markdown 格式,方便进行编辑和分享。

DeepSeek-OCR 的优势主要体现在以下几个方面:

  • 高效的视觉文本压缩: DeepSeek-OCR 采用了先进的压缩技术,能够有效地压缩图像中的文本信息,从而提高识别效率和准确率。
  • 强大的 OCR 能力: DeepSeek-OCR 能够识别多种语言和字体,并且能够处理复杂的版面和背景,具有很强的鲁棒性。
  • 灵活的输出格式: DeepSeek-OCR 支持多种输出格式,例如文本、Markdown 等,可以满足不同用户的需求。
  • 易于使用: DeepSeek-OCR 提供了详细的使用指南和代码示例,方便用户快速上手。

DeepSeek-OCR 的使用指南

DeepSeek-OCR 可以通过 Hugging Face Transformers 库在 NVIDIA GPU 上进行推理。以下是使用 DeepSeek-OCR 的基本步骤:

  1. 环境配置:
    • Python 版本:3.12.9
    • CUDA 版本:11.8
    • 安装必要的依赖库:
      pip install torch==2.6.0 transformers==4.46.3 tokenizers==0.20.3 einops addict easydict
      pip install flash-attn==2.7.3 --no-build-isolation
      
  2. 代码示例:
    from transformers import AutoModel, AutoTokenizer
    import torch
    import os
    
    os.environ["CUDA_VISIBLE_DEVICES"] = '0'  # 设置使用的 GPU 设备
    
    model_name = 'deepseek-ai/DeepSeek-OCR'  # 模型名称
    tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)  # 加载 tokenizer
    model = AutoModel.from_pretrained(model_name, _attn_implementation='flash_attention_2', trust_remote_code=True, use_safetensors=True)  # 加载模型
    model = model.eval().cuda().to(torch.bfloat16)  # 将模型设置为评估模式,并加载到 GPU 上
    
    # prompt = "<image>\nFree OCR. "  # Prompt 示例
    prompt = "<image>\n<|grounding|>Convert the document to markdown. "  # 将文档转换为 Markdown 格式的 Prompt 示例
    image_file = 'your_image.jpg'  # 输入图像文件路径
    output_path = 'your/output/dir'  # 输出结果保存路径
    
    # 调用 infer 函数进行推理
    res = model.infer(tokenizer, prompt=prompt, image_file=image_file, output_path=output_path, base_size=1024, image_size=640, crop_mode=True, save_results=True, test_compress=True)
    
    • model_name: 指定要使用的 DeepSeek-OCR 模型。
    • tokenizer: 用于将文本转换为模型可以理解的格式。
    • prompt: 用于指导模型生成特定格式的文本。例如,"<image>\n<|grounding|>Convert the document to markdown. " 指示模型将图像中的文档转换为 Markdown 格式。
    • image_file: 要进行 OCR 识别的图像文件路径。
    • output_path: OCR 识别结果的保存路径。
    • base_size 和 image_size: 用于调整图像的大小。
    • crop_mode: 用于指定是否对图像进行裁剪。
    • save_results: 用于指定是否保存结果。
    • test_compress: 用于指定是否测试压缩。
  3. 模型参数配置:

    DeepSeek-OCR 提供了不同大小的模型,用户可以根据自己的需求选择合适的模型。不同大小的模型对应的参数配置如下:

    • Tiny: base_size = 512image_size = 512crop_mode = False
    • Small: base_size = 640image_size = 640crop_mode = False
    • Base: base_size = 1024image_size = 1024crop_mode = False
    • Large: base_size = 1280image_size = 1280crop_mode = False
    • Gundam: base_size = 1024image_size = 640crop_mode = True

DeepSeek-OCR 的未来展望

DeepSeek-OCR 是一款非常有潜力的 OCR 模型,它在视觉文本压缩方面取得了显著的进展。未来,DeepSeek-OCR 可能会在以下几个方面进行改进:

  • 提高识别准确率: 通过改进模型结构和训练方法,进一步提高 DeepSeek-OCR 的识别准确率。
  • 支持更多语言和字体: 扩展 DeepSeek-OCR 支持的语言和字体范围,使其能够应用于更广泛的场景。
  • 优化模型性能: 优化 DeepSeek-OCR 的模型性能,使其能够在更低的硬件配置上运行。

致谢

DeepSeek-OCR 的开发团队感谢 Vary, GOT-OCR2.0, MinerU, PaddleOCR, OneChart, Slow Perception 等团队提供的宝贵模型和想法,以及 Fox, OminiDocBench 等团队提供的基准测试。

引用

DeepSeek-OCR 的引用信息将在不久后发布。

总结

DeepSeek-OCR 是一款先进的 OCR 模型,它在视觉文本压缩方面取得了显著的进展。该模型具有高效的压缩能力、强大的 OCR 能力、灵活的输出格式和易于使用的特点。DeepSeek-OCR 可以应用于各种场景,例如文档扫描、图片文本识别等。


deepseek-ai/DeepSeek-OCR · Hugging Face
https://huggingface.co/deepseek-ai/DeepSeek-OCR

© 版权声明
THE END
喜欢就支持一下吧
点赞777 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容