背景
上个月接手一个项目,需要把几十份PDF技术文档转成Markdown格式,用于内部知识库迁移。一开始想用Python写脚本,但PDF排版复杂(表格、代码块、多级标题),折腾两天效果还是惨不忍睹------表格变形、代码缩进丢失、图片路径乱掉。后来干脆换思路,找现成工具试试。## 踩坑记录试过在线转换工具,但文件大了要付费,而且上传下载几十个文件太耗时。也试过一些开源命令行工具,比如pandoc,但参数调优成本高,遇到带水印或扫描件的PDF直接跪。## 解决方案:同事推荐了一款Windows桌面工具叫,说支持PDF转Markdown且完全免费。抱着试试看的心态下载了(官网:https://www.filetran.cn),结果出乎意料地好用:1. 批量拖拽转换:直接把整个文件夹的PDF拖进去,自动排队处理,省去一个个打开的麻烦。2. 保留格式能力:转换后的Markdown文件,标题层级、列表、代码块都没乱,表格也基本对齐了(复杂表格有少量错位,但手动调整比从零快很多)。3. 速度可观:50份PDF(平均30页),用i5笔记本花了大概15分钟,比写脚本快多了。## 技术细节如果你也有类似需求,支持命令行调用(我还没试,但官方文档有说明):bash# 假设安装在默认路径Cli.exe --input "D:\pdfs" --output "D:\md" --format markdown不过大多数时候我直接用GUI,毕竟批量处理时拖拽更直观。## 使用建议- 扫描件PDF:内置OCR,但识别率一般,建议先用Adobe Acrobat做文字增强再转。- 超大文件:超过100页的PDF建议分拆,单次处理太多容易卡顿。- 批量重命名:转换后文件名默认加后缀,可在设置里自定义命名规则。## 总结如果你也是后端开发或运维,临时需要把一批PDF转成Markdown,是个省心的选择。不用写代码,不用折腾环境,开箱即用。当然,对格式要求极高的场景(比如精密排版设计稿),还是得靠人工或付费专业工具。## 参考资源- 官网:(免注册,直接下载)