PDF文件转Markdown，基于开源项目marker

程序员瓜叔2025-03-22 11:29

首先我们来问下deepseek

为啥要选marker呢

基于深度学习，一看就逼格拉满。搞科研必备，效果应该不会太差。跟其他的阿猫阿狗工具没法比。

看下官网

https://github.com/VikParuchuri/marker

一看头像是个印度佬，自吹------又快又好。那就试试吧。

安装步骤

安装Anaconda

https://www.anaconda.com/docs/main

进入Anaconda

进入conda命令行

创建虚拟环境

bash 复制代码

conda create -n marker_env python=3.10  //  还未试过3.12，理论上3.12会向下兼容
 
conda env list //  查看创建的虚拟环境是否成功
 
conda activate marker_env  //  激活环境

安装PyTorch、Marker

1、安装PyTorch（CPU版本，无显卡用户用此命令）：

bash 复制代码

pip3 install torch torchvision torchaudio

有显卡的、可以在官网上的Start Locally | PyTorch，根据自己电脑的配置，选择后在箭头处复制语句后执行。（我的是图中这条命令行）

2、安装Marker，耐心等待插件安装。

bash 复制代码

pip install marker-pdf

测试文件转换

准备一个PDF文件，路径不含中文或空格

执行转换命令：

bash 复制代码

marker_single D:\Information_Technology\App\pdf2md_package\input_pdf\DeepSeek15天入门手册.pdf --languages eng+chi_sim --llm_service cpu --output_dir D:\Information_Technology\App\pdf2md_package\output_md

命令的解释：

复制代码

   --命令里没有其他博主的--batch_multiplier 2，有这个的都是有显卡的；

  -- marker_single：调用marker_single执行转换操作；
   
  -- D:\Information_Technology\App\pdf2md_package\input_pdf\DeepSeek15天入门手册.pdf：需要转换的文件的所在目录（可自定义）；

   --languages eng+chi_si：设置语言，可查官网或帮助，支持的语言还是有蛮多的；

   --llm_service cpu：强制使用CPU，也可以不加此句；

   --output_dir：文件转换后的存放目录（可自定义）。

PDF文件转Markdown，基于开源项目marker

首先我们来问下deepseek

安装步骤

安装Anaconda

进入Anaconda

进入conda命令行

创建虚拟环境

安装PyTorch、Marker

1、安装PyTorch（CPU版本，无显卡用户用此命令）：

2、安装Marker，耐心等待插件安装。

测试文件转换

准备一个PDF文件，路径不含中文或空格

执行转换命令：

命令的解释：

看下效果

效果拉满，格式基本跟原文档一致，甚至更简洁美观。印度佬确实有一手