docling:PDF解析

目录

环境部署

下载

bash 复制代码
git clone https://gitclone.com/github.com/DS4SD/docling.git
conda create -n docling python=3.11
conda activate docling
pip install docling

安装模型

bash 复制代码
git clone https://www.modelscope.cn/AI-ModelScope/docling-models.git
git clone https://gitclone.com/github.com/JaidedAI/EasyOCR.gi
t

部署问题

缺少.pth文件,是去modelscope官网下载

用法

转换单个文档

bash 复制代码
from docling.document_converter import DocumentConverter


source = "demo1.pdf"  # PDF path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "### Docling Technical Report[...]"

解析效果

速度0.96秒/页

但是公式解析效果差

相关推荐
开开心心_Every5 小时前
手机端课程表管理工具:支持课程导入自定义
python·游戏·微信·django·pdf·excel·语音识别
2401_861412145 小时前
python 从入门到精通 高清PDF 背记手册
开发语言·python·pdf
今天也不想动5 小时前
PaddleOCR实现批量pdf文件或图像的文本识别
pdf·文本识别
开开心心_Every6 小时前
视频无损压缩工具:大幅减小体积并保持画质
游戏·微信·pdf·excel·音视频·语音识别·tornado
进阶的猿猴6 小时前
java中实现markdown转为pdf
java·pdf·markdown
开开心心_Every6 小时前
安卓语音转文字工具:免费支持实时转换视频
python·游戏·微信·django·pdf·excel·语音识别
解压专家6667 小时前
Kred PDF阅读进阶:不止能打开,更能高效用
pdf
神舟之光7 小时前
调用阿里云的通义千问大模型实现将pdf文件解析为excel表格(java实现)
pdf
s09071367 小时前
【完美解决】Win11安装Adobe Reader后无法预览PDF文件(保留Adobe打开,恢复微软预览)
microsoft·pdf·adobe reader·pdf预览失效
miaobinfei8 小时前
pdf转word,图片文字转word(使用OCR工具)
pdf·ocr·word