探索 PDF 转 Markdown 的项目:MinerU 和 pdfParser

pdfParser 项目是在MinerU 项目 的基础上开发的,增加了表格识别功能

MinerU:综合数据提取工具

MinerU 项目 是一款一站式、开源、高质量的数据提取工具,支持 PDF、网页和电子书的提取。其 Magic-PDF 模块可以将 PDF 转换为 Markdown 格式,保留文档结构和格式,并支持图像和表格提取。该项目是由opendatalab实验室开源的项目,该实验室是为为国产大模型提供高质量的开放数据集。

部署方法
  1. 克隆项目:

    bash 复制代码
    git clone https://github.com/opendatalab/MinerU.git
  2. 安装 Magic-PDF:

    bash 复制代码
    pip install magic-pdf[full-cpu]
  3. 下载模型权重文件并配置:

    bash 复制代码
    cp magic-pdf.template.json ~/magic-pdf.json
  4. 使用 CUDA 或 MPS 加速推理(可选):

    • CUDA:

      bash 复制代码
      pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118

      修改 magic-pdf.json

      json 复制代码
      {
        "device-mode": "cuda"
      }
    • MPS:
      修改 magic-pdf.json

      json 复制代码
      {
        "device-mode": "mps"
      }
  5. 运行 Magic-PDF:

    bash 复制代码
    magic-pdf pdf-command --pdf "pdf_path" --inside_model true
pdfParser:增强的表格识别功能

pdfParser 项目 增强了表格识别功能,能将 PDF 中的表格转换为 Markdown 文本。

部署方法
  1. 克隆项目:

    bash 复制代码
    git clone https://github.com/JUN-ZZ/pdfParser.git
  2. 安装依赖:

    bash 复制代码
    在上面的项目基础上安装
     pip install html2text  -i https://mirror.baidu.com/pypi/simple
  3. 修改目录运行:

    bash 复制代码
    python data_processer.py

通过利用这些工具,用户可以简化数据提取过程,实现 PDF 内容到 Markdown 格式的无缝转换。

相关推荐
一瞬祈望1 分钟前
⭐ 深度学习入门体系(第 7 篇): 什么是损失函数?
人工智能·深度学习·cnn·损失函数
徐小夕@趣谈前端11 分钟前
15k star的开源项目 Next AI Draw.io:AI 加持下的图表绘制工具
人工智能·开源·draw.io
优爱蛋白20 分钟前
MMP-9(20-469) His Tag 蛋白:高活性可溶性催化结构域的研究工具
人工智能·健康医疗
阿正的梦工坊21 分钟前
Kronecker积详解
人工智能·深度学习·机器学习
Rui_Freely22 分钟前
Vins-Fusion之ROS2(节点创建、订阅者、发布者)(一)
人工智能·计算机视觉
快降重23 分钟前
投稿前的“精准体检”:自查查重,如何选择可靠的第三方工具?
人工智能·aigc·写作·降重·查重·降ai
麦麦大数据34 分钟前
F067 中医养生知识图谱健康问答系统+膳食食疗系统
人工智能·知识图谱·问答·养生·膳食·食疗
Dfreedom.36 分钟前
从 model(x) 到__call__:解密深度学习框架的设计基石
人工智能·pytorch·python·深度学习·call
熬夜敲代码的小N1 小时前
AI for Science技术解析:从方法论到前沿应用的全视角洞察
人工智能
Tadas-Gao1 小时前
AI是否存在“系统一”与“系统二”?——从认知科学到深度学习架构的跨学科解读
人工智能·架构·系统架构·大模型·llm