docling:PDF解析

目录

环境部署

下载

bash 复制代码
git clone https://gitclone.com/github.com/DS4SD/docling.git
conda create -n docling python=3.11
conda activate docling
pip install docling

安装模型

bash 复制代码
git clone https://www.modelscope.cn/AI-ModelScope/docling-models.git
git clone https://gitclone.com/github.com/JaidedAI/EasyOCR.gi
t

部署问题

缺少.pth文件,是去modelscope官网下载

用法

转换单个文档

bash 复制代码
from docling.document_converter import DocumentConverter


source = "demo1.pdf"  # PDF path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "### Docling Technical Report[...]"

解析效果

速度0.96秒/页

但是公式解析效果差

相关推荐
w2018001 天前
申论答题纸模板大作文格子纸及行测答题卡PDF可打印
pdf
2401_876964131 天前
27考研396经济类联考历年真题PDF
考研·pdf
2401_876964131 天前
27唐迟阅读方法论|思维导图PDF
pdf
2401_876964131 天前
27唐迟长难句的逻辑PDF
pdf
Web打印1 天前
HttpPrinter(web打印控件)的gridreport和Fastreport对 ☑、★、✓ 等 Unicode 符号的支持
chrome·pdf·web
Web打印1 天前
HttpPrinter(web打印控件)的gridreport导出pdf,字体模糊的解决方法
pdf
Web打印1 天前
2027年Web打印的几种方法
前端·pdf·web
庖丁AI1 天前
PDF表格提取工具怎么选?普通转换、OCR和解析工具的区别
pdf·ocr
索西引擎1 天前
【LangChain 1.0】 语义搜索实战:从 PDF 文档到向量知识库的完整 RAG 链路
langchain·pdf