docling:PDF解析

目录

环境部署

下载

bash 复制代码
git clone https://gitclone.com/github.com/DS4SD/docling.git
conda create -n docling python=3.11
conda activate docling
pip install docling

安装模型

bash 复制代码
git clone https://www.modelscope.cn/AI-ModelScope/docling-models.git
git clone https://gitclone.com/github.com/JaidedAI/EasyOCR.gi
t

部署问题

缺少.pth文件,是去modelscope官网下载

用法

转换单个文档

bash 复制代码
from docling.document_converter import DocumentConverter


source = "demo1.pdf"  # PDF path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "### Docling Technical Report[...]"

解析效果

速度0.96秒/页

但是公式解析效果差

相关推荐
思杰软件15 小时前
pdf发票免费拼图打印
pdf
E_ICEBLUE1 天前
PDF 文件为什么打不开?常见原因与解决思路
pdf·c#·html
思杰软件1 天前
PDF盖骑缝章
pdf
科技圈快讯1 天前
免费AIPPT生成工具推荐:一键生成+实时预览,支持Markdown/PDF导入
pdf
六bring个六1 天前
PDF压缩
pdf
codingPower2 天前
制作ftl文件通过FreeMarke生成PDF文件(含图片处理)
java·开发语言·pdf
拓端研究室2 天前
专题:2025年脑机接口产业蓝皮书:市场规模、专利技术、投融资与临床应用|附40+份报告PDF、数据、可视化模板汇总下载
pdf
日日行不惧千万里2 天前
孤勇者歌词拼音打印版PDF
pdf
小易吾2 天前
VISIO导出高清PDF有效方法
笔记·pdf
A0_張張2 天前
记录一个PDF盖章工具(PyQt5 + PyMuPDF)
开发语言·python·qt·pdf