DeepSeek-OCR：探索视觉文本压缩的边界 (附使用指南)-🎉数字奇遇🎉

图片[1]-DeepSeek-OCR：探索视觉文本压缩的边界 (附使用指南)-🎉数字奇遇🎉

DeepSeek-OCR 是一款由 DeepSeek AI 开发的先进的光学字符识别（OCR）模型，旨在探索视觉文本压缩的极限。该模型能够将图像中的文本信息高效地提取出来，并进行转换，例如转换为 Markdown 格式。该网页提供 DeepSeek-OCR 的相关信息，包括 GitHub 仓库链接、模型下载地址、论文链接等，并提供了详细的使用指南，方便用户快速上手。

DeepSeek-OCR 的核心功能与优势

DeepSeek-OCR 的核心功能是将图像中的文本信息识别出来，并可以根据用户的需求进行转换。例如，用户可以将扫描的文档图像转换为可编辑的文本格式，或者将包含文本的图片转换为 Markdown 格式，方便进行编辑和分享。

DeepSeek-OCR 的优势主要体现在以下几个方面：

高效的视觉文本压缩： DeepSeek-OCR 采用了先进的压缩技术，能够有效地压缩图像中的文本信息，从而提高识别效率和准确率。
强大的 OCR 能力： DeepSeek-OCR 能够识别多种语言和字体，并且能够处理复杂的版面和背景，具有很强的鲁棒性。
灵活的输出格式： DeepSeek-OCR 支持多种输出格式，例如文本、Markdown 等，可以满足不同用户的需求。
易于使用： DeepSeek-OCR 提供了详细的使用指南和代码示例，方便用户快速上手。

DeepSeek-OCR 的使用指南

DeepSeek-OCR 可以通过 Hugging Face Transformers 库在 NVIDIA GPU 上进行推理。以下是使用 DeepSeek-OCR 的基本步骤：

环境配置：

Python 版本：3.12.9
CUDA 版本：11.8

安装必要的依赖库：

pip install torch==2.6.0 transformers==4.46.3 tokenizers==0.20.3 einops addict easydict
pip install flash-attn==2.7.3 --no-build-isolation

代码示例：

from transformers import AutoModel, AutoTokenizer
import torch
import os

os.environ["CUDA_VISIBLE_DEVICES"] = '0'  # 设置使用的 GPU 设备

model_name = 'deepseek-ai/DeepSeek-OCR'  # 模型名称
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)  # 加载 tokenizer
model = AutoModel.from_pretrained(model_name, _attn_implementation='flash_attention_2', trust_remote_code=True, use_safetensors=True)  # 加载模型
model = model.eval().cuda().to(torch.bfloat16)  # 将模型设置为评估模式，并加载到 GPU 上

# prompt = "<image>\nFree OCR. "  # Prompt 示例
prompt = "<image>\n<|grounding|>Convert the document to markdown. "  # 将文档转换为 Markdown 格式的 Prompt 示例
image_file = 'your_image.jpg'  # 输入图像文件路径
output_path = 'your/output/dir'  # 输出结果保存路径

# 调用 infer 函数进行推理
res = model.infer(tokenizer, prompt=prompt, image_file=image_file, output_path=output_path, base_size=1024, image_size=640, crop_mode=True, save_results=True, test_compress=True)

model_name: 指定要使用的 DeepSeek-OCR 模型。
tokenizer: 用于将文本转换为模型可以理解的格式。
prompt: 用于指导模型生成特定格式的文本。例如，"<image>\n<|grounding|>Convert the document to markdown. " 指示模型将图像中的文档转换为 Markdown 格式。
image_file: 要进行 OCR 识别的图像文件路径。
output_path: OCR 识别结果的保存路径。
base_size 和 image_size: 用于调整图像的大小。
crop_mode: 用于指定是否对图像进行裁剪。
save_results: 用于指定是否保存结果。
test_compress: 用于指定是否测试压缩。

模型参数配置：
DeepSeek-OCR 提供了不同大小的模型，用户可以根据自己的需求选择合适的模型。不同大小的模型对应的参数配置如下：
- Tiny: base_size = 512, image_size = 512, crop_mode = False
- Small: base_size = 640, image_size = 640, crop_mode = False
- Base: base_size = 1024, image_size = 1024, crop_mode = False
- Large: base_size = 1280, image_size = 1280, crop_mode = False
- Gundam: base_size = 1024, image_size = 640, crop_mode = True