探索 PDF 转 Markdown 的项目:MinerU 和 pdfParser

pdfParser 项目是在MinerU 项目 的基础上开发的,增加了表格识别功能

MinerU:综合数据提取工具

MinerU 项目 是一款一站式、开源、高质量的数据提取工具,支持 PDF、网页和电子书的提取。其 Magic-PDF 模块可以将 PDF 转换为 Markdown 格式,保留文档结构和格式,并支持图像和表格提取。该项目是由opendatalab实验室开源的项目,该实验室是为为国产大模型提供高质量的开放数据集。

部署方法
  1. 克隆项目:

    bash 复制代码
    git clone https://github.com/opendatalab/MinerU.git
  2. 安装 Magic-PDF:

    bash 复制代码
    pip install magic-pdf[full-cpu]
  3. 下载模型权重文件并配置:

    bash 复制代码
    cp magic-pdf.template.json ~/magic-pdf.json
  4. 使用 CUDA 或 MPS 加速推理(可选):

    • CUDA:

      bash 复制代码
      pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118

      修改 magic-pdf.json

      json 复制代码
      {
        "device-mode": "cuda"
      }
    • MPS:
      修改 magic-pdf.json

      json 复制代码
      {
        "device-mode": "mps"
      }
  5. 运行 Magic-PDF:

    bash 复制代码
    magic-pdf pdf-command --pdf "pdf_path" --inside_model true
pdfParser:增强的表格识别功能

pdfParser 项目 增强了表格识别功能,能将 PDF 中的表格转换为 Markdown 文本。

部署方法
  1. 克隆项目:

    bash 复制代码
    git clone https://github.com/JUN-ZZ/pdfParser.git
  2. 安装依赖:

    bash 复制代码
    在上面的项目基础上安装
     pip install html2text  -i https://mirror.baidu.com/pypi/simple
  3. 修改目录运行:

    bash 复制代码
    python data_processer.py

通过利用这些工具,用户可以简化数据提取过程,实现 PDF 内容到 Markdown 格式的无缝转换。

相关推荐
一条闲鱼_mytube7 分钟前
智能体设计模式(五)人机协同-知识检索RAG-智能体间通信
网络·人工智能·设计模式
雨大王51210 分钟前
工业AI大模型在汽车制造中的应用:如何选择最适合的解决方案?
人工智能
AC赳赳老秦13 分钟前
Kubernetes 与 DeepSeek:高效 Pod 部署配置与资源调度优化指南
人工智能·云原生·容器·kubernetes·自动化·notepad++·deepseek
OpenCSG16 分钟前
兼顾开源创新与数据安全:CSGHub 为企业 AI 选型提供最优解
人工智能·开源
AI工具测评大师17 分钟前
如何有效降低英文文本的Turnitin AI检测率?安全指南与工具推荐
人工智能·深度学习·自然语言处理·文心一言·ai写作·ai自动写作
陈天伟教授18 分钟前
人工智能应用-机器视觉:绘画大师 05.还原毕加索的隐藏画
人工智能·神经网络·数码相机·生成对抗网络·dnn
WZGL123020 分钟前
2026中国智慧养老行业:老龄化浪潮下的刚性需求爆发
大数据·人工智能·物联网
橘子师兄21 分钟前
C++AI大模型接入SDK—ChatSDK使用手册
开发语言·c++·人工智能
ZCXZ12385296a22 分钟前
果园喷药除草机器人目标检测:YOLO11-Seg-FasterNet实现喷雾药车遥感药箱识别
人工智能·目标检测·机器人
公链开发24 分钟前
2026链上预测趋势:Prediction Markets + AI融合真实案例与开发路径
人工智能