PDF解剖大师来了!LandingAI开源神器,这个Python库让百页文档秒变结构化数据!

复杂文档处理是数据分析的痛点:表格嵌套、图表混杂、超长PDF,传统OCR(如Tesseract)或解析库(如PyMuPDF)常因布局复杂而失准。

LandingAI 团队在 GitHub 上开源了一款强大的Python库:Agentic-Doc,专为从复杂文档中提取结构化数据而设计。

它封装LandingAI的Agentic Document Extraction API,支持从PDF、图片、URL提取结构化数据(表格、图表、文本等)。

还能通过计算机视觉和LLM,自动分割超长文档(100+页),并行处理,输出层次化JSON+Markdown,支持边界框可视化。

最新版新增批量解析、错误重试和可视化调试。极大地提升了文档处理的效率和准确性。

核心功能

  • 超长 PDF 支持:可处理 100+ 页文档,自动分页切割与并行处理。

  • 结构化信息提取:结合计算机视觉+LLM,准确解析表格、图表、图片,输出层次化JSON,保留元素位置。

  • 边界框可视化:可选的边界框片段和全页可视化,支持将基础信息保存为图像。

  • 智能重试机制:针对 LLM 超时、并发限制自动分页 + 重试。

  • 多格式支持:支持 PDF、图片(jpg/png)、文档 URL。

  • 批量处理能力:可并行批量解析多个文档,效率极高。

快速入手

Agentic-Doc 本质上是一个 Python 库,可通过 pip 命令快速一键安装。

复制代码
pip install agentic-doc

然后需要将API密钥设置为环境变量(LandingAI API Key):

ini 复制代码
export VISION_AGENT_API_KEY=<your-api-key>

从一份文档中提取数据,并以Markdown和结构化块的形式返回结果。

ini 复制代码
from agentic_doc.parse import parse

# Parse a local file
result = parse("path/to/image.png")
print(result.markdown)  # Get the extracted data as markdown
print(result.chunks)  # Get the extracted data as structured chunks of content

# Parse a document from a URL
result = parse("https://example.com/document.pdf")
print(result.markdown)

# Legacy approach (still supported)
from agentic_doc.parse import parse_documents
results = parse_documents(["path/to/image.png"])
parsed_doc = results[0]

从多个文档中提取数据

ini 复制代码
from agentic_doc.parse import parse

# Parse multiple local files
file_paths = ["path/to/your/document1.pdf", "path/to/another/document2.pdf"]
results = parse(file_paths)
for result in results:
    print(result.markdown)

# Parse and save results to a directory
result_paths = parse(file_paths, result_save_dir="path/to/save/results")
# result_paths: ["path/to/save/results/document1_20250313_070305.json", ...]

当然还有更多功能用法,比如:连接器等使用指南,直接前往项目文档查看即可。

使用场景

  • 发票/合同解析:从 PDF 中提取关键字段、表格、签章等内容

  • 科研论文抽取:抽取论文中的图表、公式、数据集描述等结构信息

  • 财务报告结构还原:自动识别密集表格并转为结构化 JSON 或 CSV

  • 图像文档处理:从插图、扫描文档中提取可用内容并可视化

  • RAG 文档预处理:将复杂 PDF 转为结构化文档供 LLM 使用

写在最后

复杂文档处理的痛点让人崩溃:表格嵌套、图表混杂、超长PDF解析慢。

Agentic-Doc 是复杂文档解析又一开源力作之一。它通过计算机视觉+LLM,自动分割并行处理100+页PDF,精准提取表格、图片、图表,输出JSON+Markdown,边界框可视化让调试直观。

GitHub 项目地址:github.com/landing-ai/...

相关推荐
ai小鬼头1 小时前
AIStarter最新版怎么卸载AI项目?一键删除操作指南(附路径设置技巧)
前端·后端·github
思则变2 小时前
[Pytest] [Part 2]增加 log功能
开发语言·python·pytest
漫谈网络3 小时前
WebSocket 在前后端的完整使用流程
javascript·python·websocket
try2find4 小时前
安装llama-cpp-python踩坑记
开发语言·python·llama
博观而约取5 小时前
Django ORM 1. 创建模型(Model)
数据库·python·django
精灵vector6 小时前
构建专家级SQL Agent交互
python·aigc·ai编程
Zonda要好好学习7 小时前
Python入门Day2
开发语言·python
Vertira7 小时前
pdf 合并 python实现(已解决)
前端·python·pdf
太凉7 小时前
Python之 sorted() 函数的基本语法
python
项目題供诗7 小时前
黑马python(二十四)
开发语言·python