PDF-Extract-Kit提取PDF数据

链接:
https://github.com/opendatalab/PDF-Extract-Kit

记录一下

首先是clone该项目,

然后新建一个虚拟环境

进入环境,进入项目
https://github.com/opendatalab/PDF-Extract-Kit?tab=readme-ov-file#installation-guide

如果报错没有PIL.Image.LINEAR,就

python 复制代码
pip uninstall detectron2
git clone https://github.com/facebookresearch/detectron2.git
python -m pip install -e detectron2

然后下载模型:

python 复制代码
git lfs clone https://huggingface.co/wanderkid/PDF-Extract-Kit

这一步是得到一个文件夹,里面有models文件夹,把models替换到上面clone的项目的models,这样才能有权重。

最后放入pdf文件,run

python 复制代码
nohup python pdf_extract.py --pdf ../data/mrag.pdf --output ../output --vis > log.log 2>&1 &

最后提取为json保存
PDF-Extract-Kit输出格式

Bash 复制代码
{
    "layout_dets": [    # 页中的元素
        {
            "category_id": 0, # 类别编号, 0~9,13~15
            "poly": [
                136.0, # 坐标为图片坐标,需要转换回pdf坐标, 顺序是 左上-右上-右下-左下的x,y坐标
                781.0,
                340.0,
                781.0,
                340.0,
                806.0,
                136.0,
                806.0
            ],
            "score": 0.69,   # 置信度
            "latex": ''      # 公式识别的结果,只有13,14有内容,其他为空,另外15是ocr的结果,这个key会换成text
        },
        ...
    ],
    "page_info": {         # 页信息:提取bbox时的分辨率大小,如果有缩放可以基于该信息进行对齐
        "page_no": 0,      # 页数
        "height": 1684,    # 页高
        "width": 1200      # 页宽
    }
}


{0: 'title',              # 标题
 1: 'plain text',         # 文本
 2: 'abandon',            # 包括页眉页脚页码和页面注释
 3: 'figure',             # 图片
 4: 'figure_caption',     # 图片描述
 5: 'table',              # 表格
 6: 'table_caption',      # 表格描述
 7: 'table_footnote',     # 表格注释
 8: 'isolate_formula',    # 行间公式(这个是layout的行间公式,优先级低于14)
 9: 'formula_caption',    # 行间公式的标号

 13: 'inline_formula',    # 行内公式
 14: 'isolated_formula',  # 行间公式
 15: 'ocr_text'}              # ocr识别结果
相关推荐
试剂界的爱马仕4 小时前
Pdf 压缩和转图片 工具,简单易用
pdf
w2018005 小时前
2025年12月CET4大学英语四级真题试卷、听力音频及答案PDF(三套全)
pdf
weixin_441003645 小时前
357本Python精品书籍pdf电子书下载
python·pdf
南风微微吹6 小时前
【2026年最新】英语六级历年真题、听力音频及答案解析PDF电子版(2015-2025年12月)
pdf·英语六级
优化控制仿真模型6 小时前
【26年最新】新大纲普通话考试真题题库50套(PDF电子版)
经验分享·pdf
优化控制仿真模型7 小时前
【26年6月专四】英语专业四级TEM4历年真题及答案电子版PDF(2009-2025年)
经验分享·pdf
南风微微吹7 小时前
【2026年最新】英语四级历年真题、听力音频及答案解析PDF电子版(2015-2025年12月)
pdf·英语四级
chutao21 小时前
EasyPDF 转图片(EasyPdf2Image)—— 本地安全实用的PDF与图片双向互转工具
安全·职场和发展·pdf·创业创新·学习方法
王莎莎-MinerU1 天前
MinerU 生态全接入:LangChain、Dify、RAGFlow、LlamaIndex 六大框架完整集成指南(2026)
计算机视觉·chatgpt·langchain·pdf·github·aigc
程序员老邢1 天前
【技术底稿 18】FTP 文件处理 + LibreOffice Word 转 PDF 在线预览 + 集群乱码终极排查全记录
java·经验分享·后端·pdf·word·springboot