docling:PDF解析

目录

环境部署

下载

bash 复制代码
git clone https://gitclone.com/github.com/DS4SD/docling.git
conda create -n docling python=3.11
conda activate docling
pip install docling

安装模型

bash 复制代码
git clone https://www.modelscope.cn/AI-ModelScope/docling-models.git
git clone https://gitclone.com/github.com/JaidedAI/EasyOCR.gi
t

部署问题

缺少.pth文件,是去modelscope官网下载

用法

转换单个文档

bash 复制代码
from docling.document_converter import DocumentConverter


source = "demo1.pdf"  # PDF path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "### Docling Technical Report[...]"

解析效果

速度0.96秒/页

但是公式解析效果差

相关推荐
优选资源分享9 小时前
PDF Anti-Copy Pro v2.6.2.4:PDF 防拷贝工具
网络·安全·pdf
半熟的皮皮虾1 天前
又重新写了个PDF工具箱-转换office格式/合并/拆分/删除常见操作都有了
python·程序人生·pdf·flask·开源·json·学习方法
waterfeeling1 天前
AGI 论文复现日记:攻克 PDF 解析的“第一公里”
pdf·agi
qq_546937272 天前
PDF工具的天花板!PDF补丁丁:开源免费+无广告,支持Win7~Win11,批量OCR秒完成
pdf·ocr
小真zzz2 天前
ChatPPT免费功能之【导出PDF】:PPT内容安全+便捷分享
人工智能·ai·pdf·powerpoint·ppt·aippt
Rover Ramble2 天前
提取大型非扫描pdf文件的表格数据
pdf
2501_907136822 天前
电子礼簿系统-红白喜事记账工具,PDF/Execl导出
pdf·软件需求
王五周八3 天前
html转化为base64编码的pdf文件
前端·pdf·html
ComPDFKit3 天前
ComPDF 与 Aspose:转换 SDK 的全面比较
pdf
优选资源分享3 天前
PDF 电子签章工具 v5.0:全能处理PDF电子签章
pdf