在windows10上基于Python部署marker,实现PDF转markdown文件(保姆级)

前言

网上冲浪了五天,查阅了200+blog,与deepseek对话battle了八次,解决不了问题,我就看源码你,没想到,还真解决了问题,实现了预期目标。

win环境下部署与Linux等其他系统环境不同,我个人的电脑也没有安装NVIDIA显卡,以下所用的插件版本会在文中列出。

一、准备工作

  1. 安装 Miniconda

  2. 安装系统级依赖

    • Poppler (PDF解析工具):
      • 下载地址:Releases · oschwartz10612/poppler-windows · GitHub
      • 解压到 G:\pdf2md_package(路径可自定义,建议把这一套全放一个文件夹) 或其他无空格路径,将 G:\pdf2md_package\poppler2408\Library\bin 添加到系统PATH
      • 这是我安装后的path。
    • Tesseract OCR (可选,用于OCR识别):

二、创建虚拟环境

bash 复制代码
conda create -n marker_env python=3.10  //  还未试过3.12,理论上3.12会向下兼容

conda env list //  查看创建的虚拟环境是否成功

conda activate marker_env  //  激活环境

三、安装 PyTorch、Marker

1、安装PyTorch(CPU版本,无显卡用户用此命令):

复制代码
pip3 install torch torchvision torchaudio

有显卡的、可以在官网上的Start Locally | PyTorch,根据自己电脑的配置,选择后在箭头处复制语句后执行。(我的是图中这条命令行)

2、安装Marker,耐心等待插件安装。

复制代码
pip install marker-pdf

四、测试文件转换

  1. 准备一个PDF文件,路径不含中文或空格,如 G:\a.pdf

  2. 我的文件夹布局如图。

  3. 执行转换命令:

    marker_single G:\a.pdf --languages eng+chi_sim --llm_service cpu --output_dir G:\aaa

命令的解释:

命令里没有其他博主的--batch_multiplier 2,有这个的都是有显卡的;

marker_single:调用marker_single执行转换操作;

G:\a.pdf:需要转换的文件的所在目录(可自定义);

--languages eng+chi_si:设置语言,可查官网或帮助,支持的语言还是有蛮多的;

--llm_service cpu:强制使用CPU,也可以不加此句;

--output_dir:此句最关键,在新版本的环境部署中,marker_single命令的入参形式有了变化,此前多位博主的测试语句是(marker_single G:\a.pdf G:\aaa --batch_multiplier 2 --max_pages 10),我试过多次都报错,奇奇怪怪的错误一堆,让我白花了三天时间。通过执行marker_single --help,看入参说明,看到一个output_dir,就去测试,转换后文件的存放目录,需要通过output_dir指定,而不是这样G:\a.pdf G:\aaa,紧跟着需要转换文件路径的后面。

G:\aaa:文件转换后的存放目录(可自定义)。

给我启发的几篇blog

如果以上步骤未能成功,建议看下以下几篇blog,也许能带来启发,解决问题。

Windows安装Marker_marker安装-CSDN博客

Marker把PDF转换成markdown格式输出_marker-pdf-CSDN博客

Miniconda在Windows上的安装与使用_miniconda windows-CSDN博客

marker-pdf遇到hugging face网络问题的解决_marker huggingface-CSDN博客

一个好用的小工具 | 将PDF转换为Markdown格式-CSDN博客

AI模型部署:Triton+Marker部署PDF转markdown服务_marker-pdf-CSDN博客

相关推荐
CodeCraft Studio1 天前
ABViewer 16全新发布:3D可视化、PDF转DWG、G-code生成全面升级
pdf
诸神缄默不语2 天前
如何用Python处理文件:Word导出PDF & 如何用Python从Word中提取数据:以处理简历为例
python·pdf·word
i***66502 天前
SpringBoot实战(三十二)集成 ofdrw,实现 PDF 和 OFD 的转换、SM2 签署OFD
spring boot·后端·pdf
777VG2 天前
Vue3+vue3-pdf-app@1.0.3实现加载 .pdf文件
前端·javascript·vue.js·pdf
ComPDFKit2 天前
Salesforce原生PDF编辑的重要性:效率、合规性与用户体验
大数据·pdf·ux
Forever777777772 天前
PDF瘦身,告别WPS收费压缩PDF
python·深度学习·pdf·免费
FreeBuf_2 天前
高危Markdown转PDF漏洞,可通过Markdown前置元数据实现JS注入攻击(CVE-2025-65108,CVSS 10.0)
开发语言·javascript·pdf
q***48413 天前
SpringBoot实战(三十二)集成 ofdrw,实现 PDF 和 OFD 的转换、SM2 签署OFD
spring boot·后端·pdf
SEO-狼术3 天前
Direct PDF Printing to .NET Applications
pdf
zyplayer-doc4 天前
目录支持批量操作,文档增加可见范围、锁定功能,PDF查看优化,zyplayer-doc 2.5.8 发布啦!
数据库·人工智能·pdf·编辑器·飞书·石墨文档