首先我们来问下deepseek

为啥要选marker呢
基于深度学习,一看就逼格拉满。搞科研必备,效果应该不会太差。跟其他的阿猫阿狗工具没法比。
看下官网
https://github.com/VikParuchuri/marker
一看头像是个印度佬,自吹------又快又好。那就试试吧。
安装步骤
安装Anaconda
https://www.anaconda.com/docs/main
进入Anaconda

进入conda命令行

创建虚拟环境
bash
conda create -n marker_env python=3.10 // 还未试过3.12,理论上3.12会向下兼容
conda env list // 查看创建的虚拟环境是否成功
conda activate marker_env // 激活环境
安装PyTorch、Marker
1、安装PyTorch(CPU版本,无显卡用户用此命令):
bash
pip3 install torch torchvision torchaudio
有显卡的、可以在官网上的Start Locally | PyTorch,根据自己电脑的配置,选择后在箭头处复制语句后执行。(我的是图中这条命令行)
2、安装Marker,耐心等待插件安装。
bash
pip install marker-pdf
测试文件转换
准备一个PDF文件,路径不含中文或空格

执行转换命令:
bash
marker_single D:\Information_Technology\App\pdf2md_package\input_pdf\DeepSeek15天入门手册.pdf --languages eng+chi_sim --llm_service cpu --output_dir D:\Information_Technology\App\pdf2md_package\output_md
命令的解释:
--命令里没有其他博主的--batch_multiplier 2,有这个的都是有显卡的;
-- marker_single:调用marker_single执行转换操作;
-- D:\Information_Technology\App\pdf2md_package\input_pdf\DeepSeek15天入门手册.pdf:需要转换的文件的所在目录(可自定义);
--languages eng+chi_si:设置语言,可查官网或帮助,支持的语言还是有蛮多的;
--llm_service cpu:强制使用CPU,也可以不加此句;
--output_dir:文件转换后的存放目录(可自定义)。
看下效果

效果拉满,格式基本跟原文档一致,甚至更简洁美观。印度佬确实有一手