![图片[1]-DeepSeek-OCR:探索视觉文本压缩的边界 (附使用指南)-🎉数字奇遇🎉](https://www.freeyong.com/wp-content/uploads/2025/10/27e60e142420251021091408.png)
DeepSeek-OCR 是一款由 DeepSeek AI 开发的先进的光学字符识别(OCR)模型,旨在探索视觉文本压缩的极限。该模型能够将图像中的文本信息高效地提取出来,并进行转换,例如转换为 Markdown 格式。该网页提供 DeepSeek-OCR 的相关信息,包括 GitHub 仓库链接、模型下载地址、论文链接等,并提供了详细的使用指南,方便用户快速上手。
DeepSeek-OCR 的核心功能与优势
DeepSeek-OCR 的核心功能是将图像中的文本信息识别出来,并可以根据用户的需求进行转换。例如,用户可以将扫描的文档图像转换为可编辑的文本格式,或者将包含文本的图片转换为 Markdown 格式,方便进行编辑和分享。
DeepSeek-OCR 的优势主要体现在以下几个方面:
- 高效的视觉文本压缩: DeepSeek-OCR 采用了先进的压缩技术,能够有效地压缩图像中的文本信息,从而提高识别效率和准确率。
- 强大的 OCR 能力: DeepSeek-OCR 能够识别多种语言和字体,并且能够处理复杂的版面和背景,具有很强的鲁棒性。
- 灵活的输出格式: DeepSeek-OCR 支持多种输出格式,例如文本、Markdown 等,可以满足不同用户的需求。
- 易于使用: DeepSeek-OCR 提供了详细的使用指南和代码示例,方便用户快速上手。
DeepSeek-OCR 的使用指南
DeepSeek-OCR 可以通过 Hugging Face Transformers 库在 NVIDIA GPU 上进行推理。以下是使用 DeepSeek-OCR 的基本步骤:
- 环境配置:
- Python 版本:3.12.9
- CUDA 版本:11.8
- 安装必要的依赖库:
pip install torch==2.6.0 transformers==4.46.3 tokenizers==0.20.3 einops addict easydict pip install flash-attn==2.7.3 --no-build-isolation
- 代码示例:
from transformers import AutoModel, AutoTokenizer import torch import os os.environ["CUDA_VISIBLE_DEVICES"] = '0' # 设置使用的 GPU 设备 model_name = 'deepseek-ai/DeepSeek-OCR' # 模型名称 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) # 加载 tokenizer model = AutoModel.from_pretrained(model_name, _attn_implementation='flash_attention_2', trust_remote_code=True, use_safetensors=True) # 加载模型 model = model.eval().cuda().to(torch.bfloat16) # 将模型设置为评估模式,并加载到 GPU 上 # prompt = "<image>\nFree OCR. " # Prompt 示例 prompt = "<image>\n<|grounding|>Convert the document to markdown. " # 将文档转换为 Markdown 格式的 Prompt 示例 image_file = 'your_image.jpg' # 输入图像文件路径 output_path = 'your/output/dir' # 输出结果保存路径 # 调用 infer 函数进行推理 res = model.infer(tokenizer, prompt=prompt, image_file=image_file, output_path=output_path, base_size=1024, image_size=640, crop_mode=True, save_results=True, test_compress=True)model_name: 指定要使用的 DeepSeek-OCR 模型。tokenizer: 用于将文本转换为模型可以理解的格式。prompt: 用于指导模型生成特定格式的文本。例如,"<image>\n<|grounding|>Convert the document to markdown. "指示模型将图像中的文档转换为 Markdown 格式。image_file: 要进行 OCR 识别的图像文件路径。output_path: OCR 识别结果的保存路径。base_size和image_size: 用于调整图像的大小。crop_mode: 用于指定是否对图像进行裁剪。save_results: 用于指定是否保存结果。test_compress: 用于指定是否测试压缩。
- 模型参数配置:
DeepSeek-OCR 提供了不同大小的模型,用户可以根据自己的需求选择合适的模型。不同大小的模型对应的参数配置如下:
- Tiny:
base_size = 512,image_size = 512,crop_mode = False - Small:
base_size = 640,image_size = 640,crop_mode = False - Base:
base_size = 1024,image_size = 1024,crop_mode = False - Large:
base_size = 1280,image_size = 1280,crop_mode = False - Gundam:
base_size = 1024,image_size = 640,crop_mode = True
- Tiny:
DeepSeek-OCR 的未来展望
DeepSeek-OCR 是一款非常有潜力的 OCR 模型,它在视觉文本压缩方面取得了显著的进展。未来,DeepSeek-OCR 可能会在以下几个方面进行改进:
- 提高识别准确率: 通过改进模型结构和训练方法,进一步提高 DeepSeek-OCR 的识别准确率。
- 支持更多语言和字体: 扩展 DeepSeek-OCR 支持的语言和字体范围,使其能够应用于更广泛的场景。
- 优化模型性能: 优化 DeepSeek-OCR 的模型性能,使其能够在更低的硬件配置上运行。
致谢
DeepSeek-OCR 的开发团队感谢 Vary, GOT-OCR2.0, MinerU, PaddleOCR, OneChart, Slow Perception 等团队提供的宝贵模型和想法,以及 Fox, OminiDocBench 等团队提供的基准测试。
引用
DeepSeek-OCR 的引用信息将在不久后发布。
总结
DeepSeek-OCR 是一款先进的 OCR 模型,它在视觉文本压缩方面取得了显著的进展。该模型具有高效的压缩能力、强大的 OCR 能力、灵活的输出格式和易于使用的特点。DeepSeek-OCR 可以应用于各种场景,例如文档扫描、图片文本识别等。
deepseek-ai/DeepSeek-OCR · Hugging Face
https://huggingface.co/deepseek-ai/DeepSeek-OCR












暂无评论内容