docling:PDF解析

目录

环境部署

下载

bash 复制代码
git clone https://gitclone.com/github.com/DS4SD/docling.git
conda create -n docling python=3.11
conda activate docling
pip install docling

安装模型

bash 复制代码
git clone https://www.modelscope.cn/AI-ModelScope/docling-models.git
git clone https://gitclone.com/github.com/JaidedAI/EasyOCR.gi
t

部署问题

缺少.pth文件,是去modelscope官网下载

用法

转换单个文档

bash 复制代码
from docling.document_converter import DocumentConverter


source = "demo1.pdf"  # PDF path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "### Docling Technical Report[...]"

解析效果

速度0.96秒/页

但是公式解析效果差

相关推荐
段ヤシ.5 小时前
.pdf,.docx,.doc文档在一页纸上显示4页内容(详细步骤)
pdf·文档·一张纸显示4页内容
hello_simon5 小时前
免费在线文档工具,在线PDF添加空白页,免费在任意位置插入空白页,多样化的文件处理
pdf·html·excel·pdf转html·excel转pdf格式
_Hannibal_12 小时前
通过百度OCR在线API识别带水印扫描图片文字
pdf·ocr
HaSaKing_72112 小时前
【完整可用】使用openhtmltopdf生成PDF(带SVG)
pdf·openhtmltopdf
DreamNotOver1 天前
自动提取pdf公式 ➕ 输出 LaTeX
python·pdf·gui·提取公式
专注写bug1 天前
Java——pdf增加水印
java·pdf
hello_simon1 天前
超强大小白工具,应用广泛,PDF 删除,无需下载,在线使用,操作超简单,超实用
前端·pdf
chenchihwen1 天前
Python合并多个pdf
开发语言·python·pdf
禾日木目心1 天前
为什么PDF文件更适合LLM大模型信息提取?
pdf·llm·dify·文档提取器
兰琛1 天前
Android免费实现excel文件(简单)转为PDF文件
android·pdf·excel