docling:PDF解析

目录

环境部署

下载

bash 复制代码
git clone https://gitclone.com/github.com/DS4SD/docling.git
conda create -n docling python=3.11
conda activate docling
pip install docling

安装模型

bash 复制代码
git clone https://www.modelscope.cn/AI-ModelScope/docling-models.git
git clone https://gitclone.com/github.com/JaidedAI/EasyOCR.gi
t

部署问题

缺少.pth文件,是去modelscope官网下载

用法

转换单个文档

bash 复制代码
from docling.document_converter import DocumentConverter


source = "demo1.pdf"  # PDF path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "### Docling Technical Report[...]"

解析效果

速度0.96秒/页

但是公式解析效果差

相关推荐
百事牛科技4 小时前
保护文档安全:PDF限制功能实操方法
windows·pdf
琪伦的工具库11 小时前
批量PDF文件加密工具使用说明:固定密码或随机密码批量加密PDF,权限控制+导出密码记录
运维·服务器·pdf
其实秋天的枫11 小时前
【26专四】英语专业四级TEM4历年真题及答案解析电子版PDF(2009-2025年)
经验分享·pdf
优化控制仿真模型11 小时前
26年初中中考英语大纲词汇1600个电子版PDF
经验分享·pdf
优化控制仿真模型11 小时前
【26专四】英语专业四级TEM4历年真题及答案电子版PDF(2009-2025年)
经验分享·pdf
一位代码11 小时前
python | 使用 pdfplumber 库提取 pdf 中的所有超链接
pdf
许彰午12 小时前
# Excel转PDF合并单元格边框错乱?jxl+iText逐格解析样式,政务报表精准还原方案
前端·javascript·pdf
Godson_beginner12 小时前
Aspose.PDF for Java(实现PDF转Word无水印无页数限制)
java·spring·pdf·文档转换
SEO-狼术1 天前
Infragistics now supports .NET 10
pdf·.net
琪伦的工具库1 天前
批量PDF合并工具使用说明:批量合并与直接合并两种模式,拖拽排序/页面范围/遍历子目录/重名自动处理
数据结构·pdf·排序算法