探索 PDF 转 Markdown 的项目:MinerU 和 pdfParser

pdfParser 项目是在MinerU 项目 的基础上开发的,增加了表格识别功能

MinerU:综合数据提取工具

MinerU 项目 是一款一站式、开源、高质量的数据提取工具,支持 PDF、网页和电子书的提取。其 Magic-PDF 模块可以将 PDF 转换为 Markdown 格式,保留文档结构和格式,并支持图像和表格提取。该项目是由opendatalab实验室开源的项目,该实验室是为为国产大模型提供高质量的开放数据集。

部署方法
  1. 克隆项目:

    bash 复制代码
    git clone https://github.com/opendatalab/MinerU.git
  2. 安装 Magic-PDF:

    bash 复制代码
    pip install magic-pdf[full-cpu]
  3. 下载模型权重文件并配置:

    bash 复制代码
    cp magic-pdf.template.json ~/magic-pdf.json
  4. 使用 CUDA 或 MPS 加速推理(可选):

    • CUDA:

      bash 复制代码
      pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118

      修改 magic-pdf.json

      json 复制代码
      {
        "device-mode": "cuda"
      }
    • MPS:
      修改 magic-pdf.json

      json 复制代码
      {
        "device-mode": "mps"
      }
  5. 运行 Magic-PDF:

    bash 复制代码
    magic-pdf pdf-command --pdf "pdf_path" --inside_model true
pdfParser:增强的表格识别功能

pdfParser 项目 增强了表格识别功能,能将 PDF 中的表格转换为 Markdown 文本。

部署方法
  1. 克隆项目:

    bash 复制代码
    git clone https://github.com/JUN-ZZ/pdfParser.git
  2. 安装依赖:

    bash 复制代码
    在上面的项目基础上安装
     pip install html2text  -i https://mirror.baidu.com/pypi/simple
  3. 修改目录运行:

    bash 复制代码
    python data_processer.py

通过利用这些工具,用户可以简化数据提取过程,实现 PDF 内容到 Markdown 格式的无缝转换。

相关推荐
拓端研究室1 小时前
2026年人工智能AI未来报告:智能体、元宇宙、教育、商业化落地|附400+份报告PDF、数据、可视化模板汇总下载
人工智能·百度
橙露6 小时前
数据特征工程:缺失值、异常值、标准化一站式解决方案
人工智能·机器学习
新加坡内哥谈技术6 小时前
OpenAI 的 Codex 团队如何工作并利用 AI
人工智能
星河耀银海7 小时前
人工智能大模型的安全与隐私保护:技术防御与合规实践
人工智能·安全·ai·隐私
love530love7 小时前
Scoop 完整迁移指南:从 C 盘到 D 盘的无缝切换
java·服务器·前端·人工智能·windows·scoop
njsgcs7 小时前
agentscope提取msg+llama_index 查询
人工智能
小和尚同志7 小时前
什么?oh-my-opencode 太重了?那试试 oh-my-opencode-slim
人工智能·aigc
一路往蓝-Anbo8 小时前
第 9 章:Linux 设备树 (DTS) ——屏蔽与独占外设
linux·运维·服务器·人工智能·stm32·嵌入式硬件
飞哥数智坊8 小时前
把模型焊死在芯片上,就能跑出 17,000 tokens/秒?这是一条死路,还是一条新路?
人工智能
多恩Stone8 小时前
【3D-AICG 系列-11】Trellis 2 的 Shape VAE 训练流程梳理
人工智能·pytorch·算法·3d·aigc