docling:PDF解析

目录

环境部署

下载

bash 复制代码
git clone https://gitclone.com/github.com/DS4SD/docling.git
conda create -n docling python=3.11
conda activate docling
pip install docling

安装模型

bash 复制代码
git clone https://www.modelscope.cn/AI-ModelScope/docling-models.git
git clone https://gitclone.com/github.com/JaidedAI/EasyOCR.gi
t

部署问题

缺少.pth文件,是去modelscope官网下载

用法

转换单个文档

bash 复制代码
from docling.document_converter import DocumentConverter


source = "demo1.pdf"  # PDF path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "### Docling Technical Report[...]"

解析效果

速度0.96秒/页

但是公式解析效果差

相关推荐
JosieBook13 小时前
【web应用】若依框架中,使用Echarts导出报表为PDF文件
前端·pdf·echarts
拓端研究室18 小时前
专题:2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
人工智能·pdf·云计算
wáng bēn21 小时前
[Java 17] 无模版动态生成 PDF:图片嵌入与动态表格渲染实战
java·pdf
engchina1 天前
Python PDF处理库深度对比:PyMuPDF、pypdfium2、pdfplumber、pdfminer的关系与区别
开发语言·python·pdf
浮桥1 天前
vue3实现pdf文件预览 - vue-pdf-embed
前端·vue.js·pdf
Dxy12393102162 天前
Python PDFplumber详解:从入门到精通的PDF处理指南
开发语言·python·pdf
荔枝hu3 天前
springboot生成pdf方案之dot/html/图片转pdf三种方式
spring boot·pdf·html
输出的都是我的3 天前
latex格式中插入eps格式的图像的编译命令
pdf
FreeBuf_3 天前
微软365 PDF导出功能存在本地文件包含漏洞,可泄露敏感服务器数据
服务器·microsoft·pdf
熊出没4 天前
Vue前端导出页面为PDF文件
前端·vue.js·pdf