docling:PDF解析

目录

环境部署

下载

bash 复制代码
git clone https://gitclone.com/github.com/DS4SD/docling.git
conda create -n docling python=3.11
conda activate docling
pip install docling

安装模型

bash 复制代码
git clone https://www.modelscope.cn/AI-ModelScope/docling-models.git
git clone https://gitclone.com/github.com/JaidedAI/EasyOCR.gi
t

部署问题

缺少.pth文件,是去modelscope官网下载

用法

转换单个文档

bash 复制代码
from docling.document_converter import DocumentConverter


source = "demo1.pdf"  # PDF path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "### Docling Technical Report[...]"

解析效果

速度0.96秒/页

但是公式解析效果差

相关推荐
梵克之泪18 小时前
批量拆分PDF只取PDF的首页,批量按文件页数拆分PDF,按卷内目录页码表计算批量拆分分割PDF
pdf·pdf拆分
aisifang001 天前
PDF转Word神器:Gemini3.1Pro一键搞定文档处理
人工智能·pdf·word
盘古工具1 天前
【分享】打开PDF文件的几种方式
windows·pdf
优化控制仿真模型2 天前
2026年初中英语考纲词汇表(1600词)PDF电子版
经验分享·pdf
蚁库2 天前
PDF编辑神器,一款软件搞定PDF所有问题!
pdf
狠学嵌入式2 天前
为了干翻WPS,我开发了个免费PDF处理网站
pdf
李李李勃谦2 天前
鸿蒙PC打造电子书阅读器:支持 EPUB/PDF、书签同步、笔记管理
笔记·华为·pdf·harmonyos
PaperData3 天前
2000-2025年《中国县域统计年鉴》pdf+excel版(附赠面板数据)
数据库·人工智能·数据分析·pdf·经管
狐狐生风3 天前
LangChain实现简易版-----PDF 文档问答机器人
人工智能·langchain·机器人·pdf·prompt
王莎莎-MinerU3 天前
从 PDF 到知识资产:MinerU 文档解析如何成为企业 RAG 系统的“数据基石”
大数据·人工智能·pdf·个人开发