PDF解剖大师来了!LandingAI开源神器,这个Python库让百页文档秒变结构化数据!

复杂文档处理是数据分析的痛点:表格嵌套、图表混杂、超长PDF,传统OCR(如Tesseract)或解析库(如PyMuPDF)常因布局复杂而失准。

LandingAI 团队在 GitHub 上开源了一款强大的Python库:Agentic-Doc,专为从复杂文档中提取结构化数据而设计。

它封装LandingAI的Agentic Document Extraction API,支持从PDF、图片、URL提取结构化数据(表格、图表、文本等)。

还能通过计算机视觉和LLM,自动分割超长文档(100+页),并行处理,输出层次化JSON+Markdown,支持边界框可视化。

最新版新增批量解析、错误重试和可视化调试。极大地提升了文档处理的效率和准确性。

核心功能

  • 超长 PDF 支持:可处理 100+ 页文档,自动分页切割与并行处理。

  • 结构化信息提取:结合计算机视觉+LLM,准确解析表格、图表、图片,输出层次化JSON,保留元素位置。

  • 边界框可视化:可选的边界框片段和全页可视化,支持将基础信息保存为图像。

  • 智能重试机制:针对 LLM 超时、并发限制自动分页 + 重试。

  • 多格式支持:支持 PDF、图片(jpg/png)、文档 URL。

  • 批量处理能力:可并行批量解析多个文档,效率极高。

快速入手

Agentic-Doc 本质上是一个 Python 库,可通过 pip 命令快速一键安装。

复制代码
pip install agentic-doc

然后需要将API密钥设置为环境变量(LandingAI API Key):

ini 复制代码
export VISION_AGENT_API_KEY=<your-api-key>

从一份文档中提取数据,并以Markdown和结构化块的形式返回结果。

ini 复制代码
from agentic_doc.parse import parse

# Parse a local file
result = parse("path/to/image.png")
print(result.markdown)  # Get the extracted data as markdown
print(result.chunks)  # Get the extracted data as structured chunks of content

# Parse a document from a URL
result = parse("https://example.com/document.pdf")
print(result.markdown)

# Legacy approach (still supported)
from agentic_doc.parse import parse_documents
results = parse_documents(["path/to/image.png"])
parsed_doc = results[0]

从多个文档中提取数据

ini 复制代码
from agentic_doc.parse import parse

# Parse multiple local files
file_paths = ["path/to/your/document1.pdf", "path/to/another/document2.pdf"]
results = parse(file_paths)
for result in results:
    print(result.markdown)

# Parse and save results to a directory
result_paths = parse(file_paths, result_save_dir="path/to/save/results")
# result_paths: ["path/to/save/results/document1_20250313_070305.json", ...]

当然还有更多功能用法,比如:连接器等使用指南,直接前往项目文档查看即可。

使用场景

  • 发票/合同解析:从 PDF 中提取关键字段、表格、签章等内容

  • 科研论文抽取:抽取论文中的图表、公式、数据集描述等结构信息

  • 财务报告结构还原:自动识别密集表格并转为结构化 JSON 或 CSV

  • 图像文档处理:从插图、扫描文档中提取可用内容并可视化

  • RAG 文档预处理:将复杂 PDF 转为结构化文档供 LLM 使用

写在最后

复杂文档处理的痛点让人崩溃:表格嵌套、图表混杂、超长PDF解析慢。

Agentic-Doc 是复杂文档解析又一开源力作之一。它通过计算机视觉+LLM,自动分割并行处理100+页PDF,精准提取表格、图片、图表,输出JSON+Markdown,边界框可视化让调试直观。

GitHub 项目地址:github.com/landing-ai/...

相关推荐
子兮曰5 小时前
OpenClaw架构揭秘:178k stars的个人AI助手如何用Gateway模式统一控制12+通讯频道
前端·javascript·github
冷雨夜中漫步5 小时前
Python快速入门(6)——for/if/while语句
开发语言·经验分享·笔记·python
郝学胜-神的一滴5 小时前
深入解析Python字典的继承关系:从abc模块看设计之美
网络·数据结构·python·程序人生
旅之灵夫5 小时前
【GitHub项目推荐--Remotion:使用React编程化创建视频】⭐⭐⭐
github
百锦再5 小时前
Reactive编程入门:Project Reactor 深度指南
前端·javascript·python·react.js·django·前端框架·reactjs
喵手7 小时前
Python爬虫实战:旅游数据采集实战 - 携程&去哪儿酒店机票价格监控完整方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·采集结果csv导出·旅游数据采集·携程/去哪儿酒店机票价格监控
2501_944934737 小时前
高职大数据技术专业,CDA和Python认证优先考哪个?
大数据·开发语言·python
helloworldandy7 小时前
使用Pandas进行数据分析:从数据清洗到可视化
jvm·数据库·python
肖永威9 小时前
macOS环境安装/卸载python实践笔记
笔记·python·macos
TechWJ9 小时前
PyPTO编程范式深度解读:让NPU开发像写Python一样简单
开发语言·python·cann·pypto