PDF文件转Markdown,基于开源项目marker

首先我们来问下deepseek

为啥要选marker呢

基于深度学习,一看就逼格拉满。搞科研必备,效果应该不会太差。跟其他的阿猫阿狗工具没法比。

看下官网

https://github.com/VikParuchuri/marker

一看头像是个印度佬,自吹------又快又好。那就试试吧。

安装步骤

安装Anaconda

https://www.anaconda.com/docs/main

进入Anaconda

进入conda命令行

创建虚拟环境

bash 复制代码
conda create -n marker_env python=3.10  //  还未试过3.12,理论上3.12会向下兼容
 
conda env list //  查看创建的虚拟环境是否成功
 
conda activate marker_env  //  激活环境

安装PyTorch、Marker

1、安装PyTorch(CPU版本,无显卡用户用此命令):

bash 复制代码
pip3 install torch torchvision torchaudio

有显卡的、可以在官网上的Start Locally | PyTorch,根据自己电脑的配置,选择后在箭头处复制语句后执行。(我的是图中这条命令行)

2、安装Marker,耐心等待插件安装。

bash 复制代码
pip install marker-pdf

测试文件转换

准备一个PDF文件,路径不含中文或空格

执行转换命令:

bash 复制代码
marker_single D:\Information_Technology\App\pdf2md_package\input_pdf\DeepSeek15天入门手册.pdf --languages eng+chi_sim --llm_service cpu --output_dir D:\Information_Technology\App\pdf2md_package\output_md
命令的解释:
复制代码
   --命令里没有其他博主的--batch_multiplier 2,有这个的都是有显卡的;

  -- marker_single:调用marker_single执行转换操作;
   
  -- D:\Information_Technology\App\pdf2md_package\input_pdf\DeepSeek15天入门手册.pdf:需要转换的文件的所在目录(可自定义);

   --languages eng+chi_si:设置语言,可查官网或帮助,支持的语言还是有蛮多的;

   --llm_service cpu:强制使用CPU,也可以不加此句;

   --output_dir:文件转换后的存放目录(可自定义)。

看下效果

效果拉满,格式基本跟原文档一致,甚至更简洁美观。印度佬确实有一手


相关推荐
皓月盈江1 小时前
使用谷歌浏览器自带功能将网页转换为PDF文件
chrome·pdf·html·网页转pdf·谷歌浏览器打印功能
云只上3 小时前
PDF转excel+json ,vue3+SpringBoot在线演示+附带源码
前端·javascript·spring boot·后端·pdf·json·excel
令狐少侠20113 小时前
AI之pdf解析:Tesseract、PaddleOCR、RapidPaddle(可能为 RapidOCR)和 plumberpdf 的对比分析及使用建议
人工智能·python·pdf
大数据AI人工智能培训专家培训讲师叶梓3 小时前
FramePack:让视频生成更高效、更实用
人工智能·ai·大模型·音视频·视频·视频生成·长视频
usdoc文档预览4 小时前
Office文件内容提取 | 获取Word文件内容 |Javascript提取PDF文字内容 |PPT文档文字内容提取
javascript·pdf·word·ppt·office文件在线预览·word文档在线预览·ofd预览转pdf
凌鲨4 小时前
Eteam 0.3版本开发规划
ai·语言模型
常年游走在bug的边缘5 小时前
基于spring boot 集成 deepseek 流式输出 的vue3使用指南
java·spring boot·后端·ai
ぃ灵彧が6 小时前
MCP协议在纳米材料领域的深度应用:从跨尺度协同到智能研发范式重构
人工智能·ai·科学计算·材料·mcp·纳米·纳米材料
XINVRY-FPGA7 小时前
XC7K410T‑2FFG900I 赛灵思XilinxFPGA Kintex‑7
嵌入式硬件·安全·阿里云·ai·fpga开发·云计算·fpga
万俟淋曦8 小时前
【论文速递】2025年04周 (Robotics/Embodied AI/LLM)
人工智能·ai·机器人·大模型·论文·具身智能·vla