docling:PDF解析

目录

环境部署

下载

bash 复制代码
git clone https://gitclone.com/github.com/DS4SD/docling.git
conda create -n docling python=3.11
conda activate docling
pip install docling

安装模型

bash 复制代码
git clone https://www.modelscope.cn/AI-ModelScope/docling-models.git
git clone https://gitclone.com/github.com/JaidedAI/EasyOCR.gi
t

部署问题

缺少.pth文件,是去modelscope官网下载

用法

转换单个文档

bash 复制代码
from docling.document_converter import DocumentConverter


source = "demo1.pdf"  # PDF path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "### Docling Technical Report[...]"

解析效果

速度0.96秒/页

但是公式解析效果差

相关推荐
William.csj31 分钟前
Adobe Acrobat——设置PDF打印页面的大小
pdf
CodeCraft Studio13 小时前
PDF处理控件Aspose.PDF教程:在 C# 中更改 PDF 页面大小
前端·pdf·c#
_oP_i17 小时前
提取 PDF 文件中的文字以及图片中的文字
pdf
集成显卡1 天前
图片压缩工具 | 图片生成PDF文档
图像处理·pdf
一路向北North1 天前
PDF.js无法显示数字签名
开发语言·javascript·pdf
开开心心就好1 天前
高效视频倍速播放插件推荐
python·学习·游戏·pdf·计算机外设·电脑·音视频
IT小农工2 天前
如何生成和制作PDF文件
pdf
北十南2 天前
VueScan Pro v9.8.45.08 一款图像扫描软件,中文绿色便携版
pdf·电脑
空谷有来人2 天前
推荐一款PDF压缩的工具
pdf·pdf压缩
开开心心_Every2 天前
免费且好用的PDF水印添加工具
android·javascript·windows·智能手机·pdf·c#·娱乐