探索 PDF 转 Markdown 的项目:MinerU 和 pdfParser

pdfParser 项目是在MinerU 项目 的基础上开发的,增加了表格识别功能

MinerU:综合数据提取工具

MinerU 项目 是一款一站式、开源、高质量的数据提取工具,支持 PDF、网页和电子书的提取。其 Magic-PDF 模块可以将 PDF 转换为 Markdown 格式,保留文档结构和格式,并支持图像和表格提取。该项目是由opendatalab实验室开源的项目,该实验室是为为国产大模型提供高质量的开放数据集。

部署方法
  1. 克隆项目:

    bash 复制代码
    git clone https://github.com/opendatalab/MinerU.git
  2. 安装 Magic-PDF:

    bash 复制代码
    pip install magic-pdf[full-cpu]
  3. 下载模型权重文件并配置:

    bash 复制代码
    cp magic-pdf.template.json ~/magic-pdf.json
  4. 使用 CUDA 或 MPS 加速推理(可选):

    • CUDA:

      bash 复制代码
      pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118

      修改 magic-pdf.json

      json 复制代码
      {
        "device-mode": "cuda"
      }
    • MPS:
      修改 magic-pdf.json

      json 复制代码
      {
        "device-mode": "mps"
      }
  5. 运行 Magic-PDF:

    bash 复制代码
    magic-pdf pdf-command --pdf "pdf_path" --inside_model true
pdfParser:增强的表格识别功能

pdfParser 项目 增强了表格识别功能,能将 PDF 中的表格转换为 Markdown 文本。

部署方法
  1. 克隆项目:

    bash 复制代码
    git clone https://github.com/JUN-ZZ/pdfParser.git
  2. 安装依赖:

    bash 复制代码
    在上面的项目基础上安装
     pip install html2text  -i https://mirror.baidu.com/pypi/simple
  3. 修改目录运行:

    bash 复制代码
    python data_processer.py

通过利用这些工具,用户可以简化数据提取过程,实现 PDF 内容到 Markdown 格式的无缝转换。

相关推荐
是小蟹呀^11 小时前
图像识别/分类常见学习范式:有监督、无监督、自监督、半监督……(通俗版)
人工智能·深度学习·分类
kebijuelun11 小时前
Towards Automated Kernel Generation in the Era of LLMs:LLM 时代的自动化 Kernel 生成全景图
人工智能·gpt·深度学习·语言模型
2501_9413220311 小时前
牛只行为识别研究:基于YOLO13与UniRepLKNetBlock的智能分类系统_1
人工智能·分类·数据挖掘
清 晨11 小时前
亚马逊跨境电商“账号健康与申诉(POA)”专项:规则更严时,别把一次失误变成长期封锁
人工智能·跨境电商·亚马逊·内容营销
玄同76511 小时前
OpenClaw 完全指南:部署你的 7×24 小时开源 AI 助手
人工智能·开源·智能体·agentic rag·openclaw·clawd·molt
Deepoch11 小时前
Deepoc具身模型:以三重赋能升级无人机智能作业
人工智能·科技·无人机·开发板·具身模型·deepoc·无人机爱好者
Faker66363aaa11 小时前
YOLO11-Seg-EfficientViT离合器缺陷检测与分类系统详解
人工智能·分类·数据挖掘
产品经理邹继强11 小时前
VTC产品与创新篇②:产品决策仪表盘——告别优先级争吵,用三维算法驱动路线图
大数据·人工智能
Eloudy11 小时前
Rubin“零线缆”液冷模组技术介绍
人工智能·ic·arch
格林威11 小时前
Baumer相机车牌字符分割与识别:优化车牌识别准确率的 7 种方法,附 OpenCV+Halcon 实战代码!
人工智能·opencv·计算机视觉·视觉检测·halcon·工业相机·智能相机