探索 PDF 转 Markdown 的项目:MinerU 和 pdfParser

pdfParser 项目是在MinerU 项目 的基础上开发的,增加了表格识别功能

MinerU:综合数据提取工具

MinerU 项目 是一款一站式、开源、高质量的数据提取工具,支持 PDF、网页和电子书的提取。其 Magic-PDF 模块可以将 PDF 转换为 Markdown 格式,保留文档结构和格式,并支持图像和表格提取。该项目是由opendatalab实验室开源的项目,该实验室是为为国产大模型提供高质量的开放数据集。

部署方法
  1. 克隆项目:

    bash 复制代码
    git clone https://github.com/opendatalab/MinerU.git
  2. 安装 Magic-PDF:

    bash 复制代码
    pip install magic-pdf[full-cpu]
  3. 下载模型权重文件并配置:

    bash 复制代码
    cp magic-pdf.template.json ~/magic-pdf.json
  4. 使用 CUDA 或 MPS 加速推理(可选):

    • CUDA:

      bash 复制代码
      pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118

      修改 magic-pdf.json

      json 复制代码
      {
        "device-mode": "cuda"
      }
    • MPS:
      修改 magic-pdf.json

      json 复制代码
      {
        "device-mode": "mps"
      }
  5. 运行 Magic-PDF:

    bash 复制代码
    magic-pdf pdf-command --pdf "pdf_path" --inside_model true
pdfParser:增强的表格识别功能

pdfParser 项目 增强了表格识别功能,能将 PDF 中的表格转换为 Markdown 文本。

部署方法
  1. 克隆项目:

    bash 复制代码
    git clone https://github.com/JUN-ZZ/pdfParser.git
  2. 安装依赖:

    bash 复制代码
    在上面的项目基础上安装
     pip install html2text  -i https://mirror.baidu.com/pypi/simple
  3. 修改目录运行:

    bash 复制代码
    python data_processer.py

通过利用这些工具,用户可以简化数据提取过程,实现 PDF 内容到 Markdown 格式的无缝转换。

相关推荐
youcans_15 分钟前
【DeepSeek论文精读】13. DeepSeek-OCR:上下文光学压缩
论文阅读·人工智能·计算机视觉·ocr·deepseek
m0_6501082418 分钟前
【论文精读】Latent-Shift:基于时间偏移模块的高效文本生成视频技术
人工智能·论文精读·文本生成视频·潜在扩散模型·时间偏移模块·高效生成式人工智能
岁月的眸37 分钟前
【循环神经网络基础】
人工智能·rnn·深度学习
文火冰糖的硅基工坊39 分钟前
[人工智能-大模型-35]:模型层技术 - 大模型的能力与应用场景
人工智能·神经网络·架构·transformer
GIS数据转换器1 小时前
2025无人机在农业生态中的应用实践
大数据·网络·人工智能·安全·无人机
syso_稻草人2 小时前
基于 ComfyUI + Wan2.2 animate实现 AI 视频人物换衣:完整工作流解析与资源整合(附一键包)
人工智能·音视频
qq_436962182 小时前
AI+BI工具全景指南:重构企业数据决策效能
人工智能·重构
sali-tec2 小时前
C# 基于halcon的视觉工作流-章48-短路断路
开发语言·图像处理·人工智能·算法·计算机视觉
cuicuiniu5212 小时前
浩辰CAD 看图王 推出「图小智AI客服」,重构设计服务新体验
人工智能·cad·cad看图·cad看图软件·cad看图王
SSO_Crown2 小时前
2025年HR 数字化转型:从工具应用到组织能力重构的深度变革
人工智能·重构