docling:PDF解析

目录

环境部署

下载

bash 复制代码
git clone https://gitclone.com/github.com/DS4SD/docling.git
conda create -n docling python=3.11
conda activate docling
pip install docling

安装模型

bash 复制代码
git clone https://www.modelscope.cn/AI-ModelScope/docling-models.git
git clone https://gitclone.com/github.com/JaidedAI/EasyOCR.gi
t

部署问题

缺少.pth文件,是去modelscope官网下载

用法

转换单个文档

bash 复制代码
from docling.document_converter import DocumentConverter


source = "demo1.pdf"  # PDF path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "### Docling Technical Report[...]"

解析效果

速度0.96秒/页

但是公式解析效果差

相关推荐
火山上的企鹅8 小时前
Qt WORD/PDF(三)使用 QAxObject 对 Word 替换(QML)
qt·pdf·word·qaxobject
liuyouzhang14 小时前
pdf文件中的表格无损提取方案(pdf转Excel),非OCR
pdf·excel
乌龟的黑头-阿尔及利亚14 小时前
将HTML转换为PDF:使用Spire.Doc的详细指南
pdf
前端郭德纲14 小时前
前端导出PDF的组件及方法
前端·pdf
╰つ゛木槿16 小时前
使用正则表达式提取PDF文件页数的实现方案
正则表达式·pdf
跳动的喵尾巴16 小时前
知网研学 | 知网文献(CAJ+PDF)批量下载
论文阅读·pdf·全文检索
大霸王龙17 小时前
多个图片转换为PDF文件
pdf
winfredzhang17 小时前
PDFMathTranslate 一个基于AI优秀的PDF论文翻译工具
人工智能·pdf·论文·翻译
winfredzhang17 小时前
从 PDF 到 Word:一个简单的 PythonGUI转换器
python·pdf·word·转换