docling:PDF解析

目录

环境部署

下载

bash 复制代码
git clone https://gitclone.com/github.com/DS4SD/docling.git
conda create -n docling python=3.11
conda activate docling
pip install docling

安装模型

bash 复制代码
git clone https://www.modelscope.cn/AI-ModelScope/docling-models.git
git clone https://gitclone.com/github.com/JaidedAI/EasyOCR.gi
t

部署问题

缺少.pth文件,是去modelscope官网下载

用法

转换单个文档

bash 复制代码
from docling.document_converter import DocumentConverter


source = "demo1.pdf"  # PDF path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "### Docling Technical Report[...]"

解析效果

速度0.96秒/页

但是公式解析效果差

相关推荐
m0_7482309415 小时前
SpringBoot实战(三十二)集成 ofdrw,实现 PDF 和 OFD 的转换、SM2 签署OFD
spring boot·后端·pdf
程序员WANG21 小时前
论文+AI赋能教育:探索变革路径与创新实践。包括word和pdf格式。
人工智能·学习·pdf·教育·变革
風落1 天前
《告别复杂PDF编辑,PDF Eraser开启便捷办公新体验》
pdf·软件工程·软件需求
b_qixin1 天前
文档解析:PDF里的复杂表格、少线表格如何还原?
人工智能·pdf
花生糖@2 天前
Python实现PDF文档转图片功能
pdf
圣道寺2 天前
审计文件标识作为水印打印在pdf页面边角
java·前端·python·pdf·学习方法
baivfhpwxf20232 天前
c# PDF文件合并工具
pdf
拓端研究室2 天前
2024微短剧行业生态洞察报告汇总PDF洞察(附原数据表)
pdf
码上艺术家3 天前
手摸手系列之 Java 通过 PDF 模板生成 PDF 功能
java·开发语言·spring boot·后端·pdf·docker compose
ghostwritten3 天前
实战经验:使用 Python 的 PyPDF 进行 PDF 操作
android·python·pdf