docling:PDF解析

目录

环境部署

下载

bash 复制代码
git clone https://gitclone.com/github.com/DS4SD/docling.git
conda create -n docling python=3.11
conda activate docling
pip install docling

安装模型

bash 复制代码
git clone https://www.modelscope.cn/AI-ModelScope/docling-models.git
git clone https://gitclone.com/github.com/JaidedAI/EasyOCR.gi
t

部署问题

缺少.pth文件,是去modelscope官网下载

用法

转换单个文档

bash 复制代码
from docling.document_converter import DocumentConverter


source = "demo1.pdf"  # PDF path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "### Docling Technical Report[...]"

解析效果

速度0.96秒/页

但是公式解析效果差

相关推荐
2501_907136822 小时前
发票识别工具,支持xml、pdf、ofd文件
xml·pdf·软件需求
DreamNotOver2 小时前
批量转换论文正文引用为上标后转PDF保持上标
pdf·word·引用·上标
❀͜͡傀儡师3 小时前
docker一键部署PDF免费工具箱stirling-PDF
docker·容器·pdf
拓端研究室4 小时前
专题:2025中国医疗器械出海现状与趋势创新发展研究报告|附160+份报告PDF、数据、可视化模板汇总下载
大数据·人工智能·pdf
拓端研究室4 小时前
2025人形机器人产业链全景分析报告:核心技术与市场趋势|附130+份报告PDF、数据、可视化模板汇总下载
机器人·pdf
还不秃顶的计科生9 小时前
在Visio中保存PDF时去除空白区域
pdf
私人珍藏库16 小时前
[Windows] PDF文件浏览OCR工具1.0
pdf·ocr
六元七角八分1 天前
CSDN文章如何转出为PDF文件保存
开发语言·javascript·pdf
涔溪1 天前
Vue 中实现 PDF 文件上传
javascript·vue.js·pdf
blog_wanghao1 天前
PDF文件内容出现重叠现象解析
c++·pdf