docling:PDF解析

目录

环境部署

下载

bash 复制代码
git clone https://gitclone.com/github.com/DS4SD/docling.git
conda create -n docling python=3.11
conda activate docling
pip install docling

安装模型

bash 复制代码
git clone https://www.modelscope.cn/AI-ModelScope/docling-models.git
git clone https://gitclone.com/github.com/JaidedAI/EasyOCR.gi
t

部署问题

缺少.pth文件,是去modelscope官网下载

用法

转换单个文档

bash 复制代码
from docling.document_converter import DocumentConverter


source = "demo1.pdf"  # PDF path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "### Docling Technical Report[...]"

解析效果

速度0.96秒/页

但是公式解析效果差

相关推荐
SYC_MORE1 天前
无需 OCR,多模态大模型如何“读懂” PDF?——基于 GLM-4V-Flash 的智能文档解析原理剖析
人工智能·pdf·ocr
m5655bj1 天前
C# 在 PDF 文档中添加电子签名
开发语言·pdf·c#
野生技术架构师1 天前
2025年Java面试八股文大全(附PDF版)
java·面试·pdf
私人珍藏库1 天前
[Windows] PDF 专业电子签章工具 v4.8
windows·pdf
无敌的黑星星1 天前
office 批量word转pdf
pdf·word·vba
console.log('npc')1 天前
vue3文件上传弹窗,图片pdf,word,结合预览kkview
前端·javascript·vue.js·pdf·word
优选资源分享1 天前
PDF to IMG v1.0:批量PDF转图片工具
pdf·实用工具
办公自动化软件定制化开发python1 天前
[特殊字符] 告别重复劳动!「报告自动生成工具」上线:一键批量生成 Word/PDF 报告,支持模板层级结构保存!
pdf·word
TTGGGFF1 天前
实用代码工具:Python打造PDF选区OCR / 截图批量处理工具(支持手动/全自动模式)
python·pdf·ocr
诸葛大钢铁2 天前
如何拆分PDF文件?快速拆分PDF文件的2个方法
pdf·pdf拆分