docling:PDF解析

目录

环境部署

下载

bash 复制代码
git clone https://gitclone.com/github.com/DS4SD/docling.git
conda create -n docling python=3.11
conda activate docling
pip install docling

安装模型

bash 复制代码
git clone https://www.modelscope.cn/AI-ModelScope/docling-models.git
git clone https://gitclone.com/github.com/JaidedAI/EasyOCR.gi
t

部署问题

缺少.pth文件,是去modelscope官网下载

用法

转换单个文档

bash 复制代码
from docling.document_converter import DocumentConverter


source = "demo1.pdf"  # PDF path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "### Docling Technical Report[...]"

解析效果

速度0.96秒/页

但是公式解析效果差

相关推荐
伊织code5 小时前
pdfminer.six
python·pdf·图片·提取·文本·pdfminer·pdfminer.six
HAPPY酷9 小时前
给纯小白的Python操作 PDF 笔记
开发语言·python·pdf
代码AI弗森1 天前
PDF OCR + 大模型:让文档理解不止停留在识字
pdf·ocr
小周同学:2 天前
在 Vue2 中使用 pdf.js + pdf-lib 实现 PDF 预览、手写签名、文字批注与高保真导出
开发语言·前端·javascript·vue.js·pdf
Kyln.Wu2 天前
【python实用小脚本-187】Python一键批量改PDF文字:拖进来秒出新文件——再也不用Acrobat来回导
python·pdf·c#
迪尔~4 天前
Apache POI中通过WorkBook写入图片后出现导出PDF文件时在不同页重复写入该图片问题,如何在通过sheet获取绘图对象清除该图片
java·pdf·excel
忆~遂愿4 天前
Python实战教程:PDF文档自动化编辑与图表绘制全攻略
python·pdf·自动化
Rust语言中文社区4 天前
简单好用的在线工具:轻松把图片添加到 PDF
pdf
鲁班AI4 天前
pdf怎么转换成ppt?AI工具与传统方法深度对比
人工智能·pdf·powerpoint
大山运维4 天前
免费专业PDF文档扫描效果生成器
pdf