docling:PDF解析

目录

环境部署

下载

bash 复制代码
git clone https://gitclone.com/github.com/DS4SD/docling.git
conda create -n docling python=3.11
conda activate docling
pip install docling

安装模型

bash 复制代码
git clone https://www.modelscope.cn/AI-ModelScope/docling-models.git
git clone https://gitclone.com/github.com/JaidedAI/EasyOCR.gi
t

部署问题

缺少.pth文件,是去modelscope官网下载

用法

转换单个文档

bash 复制代码
from docling.document_converter import DocumentConverter


source = "demo1.pdf"  # PDF path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "### Docling Technical Report[...]"

解析效果

速度0.96秒/页

但是公式解析效果差

相关推荐
开开心心_Every11 小时前
手机隐私数据彻底删除工具:回收或弃用手机前防数据恢复
android·windows·python·搜索引擎·智能手机·pdf·音视频
秋名RG16 小时前
PDF生成模块开发经验分享
经验分享·pdf
混吃等死的牛20 小时前
PPT画图导出为PDF格式
pdf·powerpoint
HMS Core20 小时前
【FAQ】HarmonyOS SDK 闭源开放能力 — PDF Kit
华为·pdf·harmonyos
reasonsummer1 天前
【办公类-99-05】20250508 D刊物JPG合并PDF便于打印
python·pdf
qq_278063711 天前
vue2 结合后端预览pdf 跨域的话就得需要后端来返回 然后前端呈现
前端·pdf
CHQIUU1 天前
使用 CDN 在国内加载本地 PDF 文件并处理批注:PDF.js 5.x 实战指南
开发语言·javascript·pdf
诸葛小猿2 天前
Pdf转Word案例(java)
java·pdf·word·格式转换
小魏的马仔2 天前
【java】使用iText实现pdf文件增加水印功能
java·开发语言·pdf
Wcowin2 天前
Mkdocs页面如何嵌入PDF
前端·pdf·mkdocs