PDF文件转Markdown,基于开源项目marker

首先我们来问下deepseek

为啥要选marker呢

基于深度学习,一看就逼格拉满。搞科研必备,效果应该不会太差。跟其他的阿猫阿狗工具没法比。

看下官网

https://github.com/VikParuchuri/marker

一看头像是个印度佬,自吹------又快又好。那就试试吧。

安装步骤

安装Anaconda

https://www.anaconda.com/docs/main

进入Anaconda

进入conda命令行

创建虚拟环境

bash 复制代码
conda create -n marker_env python=3.10  //  还未试过3.12,理论上3.12会向下兼容
 
conda env list //  查看创建的虚拟环境是否成功
 
conda activate marker_env  //  激活环境

安装PyTorch、Marker

1、安装PyTorch(CPU版本,无显卡用户用此命令):

bash 复制代码
pip3 install torch torchvision torchaudio

有显卡的、可以在官网上的Start Locally | PyTorch,根据自己电脑的配置,选择后在箭头处复制语句后执行。(我的是图中这条命令行)

2、安装Marker,耐心等待插件安装。

bash 复制代码
pip install marker-pdf

测试文件转换

准备一个PDF文件,路径不含中文或空格

执行转换命令:

bash 复制代码
marker_single D:\Information_Technology\App\pdf2md_package\input_pdf\DeepSeek15天入门手册.pdf --languages eng+chi_sim --llm_service cpu --output_dir D:\Information_Technology\App\pdf2md_package\output_md
命令的解释:
复制代码
   --命令里没有其他博主的--batch_multiplier 2,有这个的都是有显卡的;

  -- marker_single:调用marker_single执行转换操作;
   
  -- D:\Information_Technology\App\pdf2md_package\input_pdf\DeepSeek15天入门手册.pdf:需要转换的文件的所在目录(可自定义);

   --languages eng+chi_si:设置语言,可查官网或帮助,支持的语言还是有蛮多的;

   --llm_service cpu:强制使用CPU,也可以不加此句;

   --output_dir:文件转换后的存放目录(可自定义)。

看下效果

效果拉满,格式基本跟原文档一致,甚至更简洁美观。印度佬确实有一手


相关推荐
我爱一条柴ya2 小时前
【AI大模型】深入理解 Transformer 架构:自然语言处理的革命引擎
人工智能·ai·ai作画·ai编程·ai写作
一头生产的驴5 小时前
java整合itext pdf实现自定义PDF文件格式导出
java·spring boot·pdf·itextpdf
DeepSeek-大模型系统教程20 小时前
深入金融与多模态场景实战:金融文档分块技术与案例汇总
人工智能·ai·语言模型·程序员·大模型·大模型学习·大模型教程
程序员鱼皮1 天前
Cursor 网页版来了,这下拉屎时也能工作了
计算机·ai·程序员·开发·项目·编程经验
我是小哪吒2.01 天前
书籍推荐-《对抗机器学习:攻击面、防御机制与人工智能中的学习理论》
人工智能·深度学习·学习·机器学习·ai·语言模型·大模型
小眼睛FPGA1 天前
【RK3568+PG2L50H开发板实验例程】Linux部分/FPGA dma_memcpy_demo 读写案例
linux·运维·科技·ai·fpga开发·gpu算力
开开心心就好1 天前
批量PDF转换工具,一键转换Word Excel
开发语言·前端·学习·pdf·电脑·word·excel
DeepSeek-大模型系统教程1 天前
推荐 7 个本周 yyds 的 GitHub 项目。
人工智能·ai·语言模型·大模型·github·ai大模型·大模型学习
老家的回忆2 天前
jsPDF和html2canvas生成pdf,组件用的elementplus,亲测30多页,20s实现
前端·vue.js·pdf·html2canvas·jspdf
Vertira2 天前
pdf 合并 python实现(已解决)
前端·python·pdf