探索 PDF 转 Markdown 的项目:MinerU 和 pdfParser

pdfParser 项目是在MinerU 项目 的基础上开发的,增加了表格识别功能

MinerU:综合数据提取工具

MinerU 项目 是一款一站式、开源、高质量的数据提取工具,支持 PDF、网页和电子书的提取。其 Magic-PDF 模块可以将 PDF 转换为 Markdown 格式,保留文档结构和格式,并支持图像和表格提取。该项目是由opendatalab实验室开源的项目,该实验室是为为国产大模型提供高质量的开放数据集。

部署方法
  1. 克隆项目:

    bash 复制代码
    git clone https://github.com/opendatalab/MinerU.git
  2. 安装 Magic-PDF:

    bash 复制代码
    pip install magic-pdf[full-cpu]
  3. 下载模型权重文件并配置:

    bash 复制代码
    cp magic-pdf.template.json ~/magic-pdf.json
  4. 使用 CUDA 或 MPS 加速推理(可选):

    • CUDA:

      bash 复制代码
      pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118

      修改 magic-pdf.json

      json 复制代码
      {
        "device-mode": "cuda"
      }
    • MPS:
      修改 magic-pdf.json

      json 复制代码
      {
        "device-mode": "mps"
      }
  5. 运行 Magic-PDF:

    bash 复制代码
    magic-pdf pdf-command --pdf "pdf_path" --inside_model true
pdfParser:增强的表格识别功能

pdfParser 项目 增强了表格识别功能,能将 PDF 中的表格转换为 Markdown 文本。

部署方法
  1. 克隆项目:

    bash 复制代码
    git clone https://github.com/JUN-ZZ/pdfParser.git
  2. 安装依赖:

    bash 复制代码
    在上面的项目基础上安装
     pip install html2text  -i https://mirror.baidu.com/pypi/simple
  3. 修改目录运行:

    bash 复制代码
    python data_processer.py

通过利用这些工具,用户可以简化数据提取过程,实现 PDF 内容到 Markdown 格式的无缝转换。

相关推荐
昇腾知识体系1 分钟前
vLLM-Ascend双机混部DeepSeek-R1-671B-0528 W8A8量化模型
人工智能
weixin199701080162 分钟前
新京报 item_get - 获取详情数据接口对接全攻略:从入门到精通
大数据·人工智能
老贾专利烩2 分钟前
听力障碍市场规模扩容驱动因素:人口老龄化与技术进步量化分析
人工智能
大千AI助手3 分钟前
曼哈顿距离:概念、起源与应用全解析
人工智能·机器学习·数据挖掘·距离度量·曼哈顿距离·大千ai助手·街区距离
TMT星球3 分钟前
曹操出行携手越疆科技共同拓展机器人技术的应用场景和应用能力
人工智能·科技·机器人
Lethehong3 分钟前
魔珐星云:让AI拥有身体,开启具身智能新纪元
人工智能·蓝耘元生代·蓝耘maas·魔珐星云
牛客企业服务6 分钟前
2025年AI面试趋势解析:企业如何借力工具破解规模化招聘难题?
人工智能·面试·职场和发展
补三补四7 分钟前
参数优化—序列神经网络
人工智能·深度学习·神经网络
泰迪智能科技018 分钟前
企业数据挖掘平台怎么选择,有哪些应用场景?
人工智能·数据挖掘
youcans_12 分钟前
【youcans论文精读】U-Net:用于医学图像分割的 U型卷积神经网络
论文阅读·人工智能·计算机视觉·图像分割·unet