杂记：文档解析器

方安乐2026-01-27 17:33

一、开源文档解析器

1. Unstructured

特点：由 Unstructured.io 开源，支持 PDF、Word、PPT、HTML 等多种格式。
优势：模块化设计，可与 LangChain、LlamaIndex 集成；支持布局感知（layout-aware）解析。
输出：结构化 JSON 或文本块（带元数据，如页码、类型）。
GitHub ：https://github.com/unstructured-io/unstructured

2. PDFMiner / pdfminer.six

特点：专注于从 PDF 中提取文本和布局信息（Python 实现）。
优势：精确控制文本位置、字体、行高，适合需要精细排版分析的场景。
局限：不直接支持表格/公式识别，需配合其他工具。
GitHub ：https://github.com/pdfminer/pdfminer.six

3. PyMuPDF (fitz)

特点：高性能 PDF 处理库，支持文本、图像、注释提取。
优势：速度快，支持渲染页面为图像，适合预处理。
局限：对复杂布局（如多栏）理解有限。
官网：https://pymupdf.readthedocs.io

4. GROBID

专注领域 ：学术文献解析（特别是科研论文）。
功能：自动识别标题、作者、摘要、参考文献、章节结构等。
技术：基于 CRF 和深度学习，支持 TEI XML 输出。
GitHub ：https://github.com/kermitt2/grobid
适用场景：构建学术知识图谱、文献管理。

5. Marker

特点：将 PDF（尤其是学术 PDF）高质量转为 Markdown。
优势：保留公式（LaTeX）、表格、参考文献，效果接近 MinerU。
底层依赖：结合了 OCR、GROBID、nougat 等模型。
GitHub ：https://github.com/VikParuchuri/marker

6. DocTR (Document Text Recognition)

特点：由 Mindee 开发，端到端文档 OCR 与结构识别。
功能：检测文本区域、表格、段落，并输出结构化 JSON。
GitHub ：https://github.com/mindee/doctr

二、商业/云服务类解析器

1. Adobe PDF Extract API

优势：Adobe 官方出品，对 PDF 内部结构理解最深。
功能：高精度提取文本、表格、图片、样式、逻辑结构。
限制：付费服务，需联网调用。

2. Google Document AI

特点：支持发票、收据、合同、通用文档等多种模板。
优势：强大的预训练模型 + 自定义训练能力。
适用：企业级文档自动化（如财务、法务）。

3. Amazon Textract

功能：自动识别文本、表格、表单字段。
优势：与 AWS 生态无缝集成，适合大规模处理。

4. Azure Form Recognizer

特点：微软出品，擅长结构化表单和非结构化文档解析。
支持：预训练模型 + 自定义模型训练。

三、新兴 AI 驱动的解析器

1. Nougat (by Meta)

定位：专为科学 PDF 转 LaTeX/Markdown 设计。
模型：基于 Transformer 的视觉-语言模型。
局限：计算资源要求高，对非学术 PDF 效果一般。
GitHub ：https://github.com/facebookresearch/nougat

2. DeepReader / LayoutParser / Donut

这些是研究型工具，利用深度学习进行端到端文档理解，适合定制化开发。

四、如何选择？

需求	推荐工具
学术论文结构化解析	MinerU , GROBID , Marker , Nougat
通用 PDF 文本提取	PyMuPDF , pdfminer.six , Unstructured
表格/表单识别	Amazon Textract , Google Document AI , Camelot（开源）
本地部署 + 开源	MinerU , Unstructured , Marker , GROBID
高质量 Markdown 输出	MinerU , Marker
企业级生产环境	Adobe Extract , Document AI , Textract

上一篇：41.有序数组(二叉搜索树)转平衡二叉树

下一篇：基于容器化的边缘计算网关应用部署实践：Python+MQTT

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05AI科技热点日报 | 2026年07月01日 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09Kimi K3 真实体验：全网评价整理，优缺点一次性说清楚 102026 年 AI 大模型 & AI 编程工具实战全总结