Extract2MD:强大的PDF转Markdown工具,集成AI增强,实现高效转换

图片[1]-Extract2MD:强大的PDF转Markdown工具,集成AI增强,实现高效转换-✨️免费用✅️

Extract2MD是一个强大的客户端JavaScript库,旨在将PDF文档转换为Markdown格式,它提供了多种提取方法,并可选地集成LLM(大型语言模型)进行增强,以满足不同的转换需求。该库提供了五种不同的场景,用户可以根据具体情况选择最合适的转换方式。

**五种转换场景:**

1. **快速转换(Quick Convert Only):** 适用于PDF文档包含可选择文本的情况,使用PDF.js进行文本提取,输出基本的Markdown格式。速度快,但对复杂布局支持有限。

2. **高精度OCR转换(High Accuracy Convert Only):** 适用于包含图像、扫描文档或复杂布局的PDF文档,使用Tesseract.js进行OCR(光学字符识别),将图像中的文本转换为Markdown格式。精度高,但速度相对较慢。

3. **快速转换 + LLM增强(Quick Convert + LLM):** 在快速转换的基础上,利用WebLLM进行AI增强,改进格式和结构,使Markdown文档更加清晰易读。兼顾速度和质量。

4. **高精度OCR转换 + LLM增强(High Accuracy + LLM):** 在高精度OCR转换的基础上,利用WebLLM进行AI增强,进一步提升Markdown文档的质量。适用于需要高精度和良好格式的场景。

5. **组合提取 + LLM增强(Combined + LLM):** 结合了PDF.js和Tesseract.js两种提取方法,并利用WebLLM进行AI增强,最大程度地利用两种提取方法的优势,生成最佳的Markdown文档。该方法最为全面,推荐使用。

**配置选项:**

Extract2MD提供了丰富的配置选项,允许用户自定义转换行为。用户可以通过创建配置对象或JSON文件来设置各种参数,例如:

* **PDF.js Worker:** 指定PDF.js worker文件的路径。
* **Tesseract OCR设置:** 配置Tesseract.js OCR引擎,包括worker路径、核心路径、语言数据路径和语言。
* **LLM配置:** 选择使用的LLM模型,并设置模型的参数,如温度和最大token数。支持自定义模型,用户可以使用自己训练的模型。
* **系统提示词定制:** 针对不同的转换场景,定制系统提示词,以指导LLM生成更符合需求的Markdown文档。例如,可以指示LLM在提取代码示例时保持其原始格式,或在处理表格和图表时更加细致。
* **处理选项:** 设置各种处理选项,例如是否拆分PascalCase命名,以及PDF渲染比例。
* **后处理规则:** 定义查找和替换规则,对Markdown文档进行后处理。
* **进度跟踪:** 通过回调函数,实时跟踪转换进度,方便用户了解转换状态。

**高级用法:**

Extract2MD还提供了高级用法,允许用户直接使用各个组件,例如WebLLMEngine、OutputParser和ConfigValidator,以实现更灵活的定制。用户可以自定义系统提示词,并从JSON文件加载配置。

**错误处理和进度跟踪:**

Extract2MD提供了完善的错误处理机制和进度跟踪功能。用户可以通过配置`progressCallback`函数,实时获取转换进度信息,并在发生错误时及时进行处理。

**从旧API迁移:**

如果用户正在使用旧的API,Extract2MD仍然提供了兼容性支持,允许用户继续使用旧的API。但是,建议用户迁移到新的API,以获得更好的性能和功能。

**主要特性:**

* **五种场景特定方法:** 针对不同的使用场景,选择最合适的转换方法。
* **WebLLM集成:** 集成客户端AI增强功能,利用Qwen模型提升转换质量。
* **自定义模型支持:** 支持使用用户自己训练的模型。
* **高级输出解析:** 自动移除思考标签和格式化。
* **全面配置:** 可以对转换的各个方面进行微调。
* **进度跟踪:** 提供实时更新,方便UI集成。
* **TypeScript支持:** 包含完整的类型定义。
* **向后兼容:** 仍然可以使用旧的API。

**安装和部署:**

Extract2MD可以通过NPM进行安装,也可以通过CDN直接在浏览器中使用。该库需要worker文件用于PDF.js和Tesseract.js,这些文件在构建过程中会自动复制。

**SEO关键词:** PDF转Markdown, OCR转换, AI增强Markdown

**相关标签:** PDF, Markdown, LLM

hashangit/Extract2MD: Extract2MD is a powerful and versatile AI-enabled client-side JavaScript library for extracting text from PDF files and converting it into Markdown.
https://github.com/hashangit/Extract2MD

© 版权声明
THE END
喜欢就支持一下吧
点赞23 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容