PDF转Markdown实战：批量转换的坑与解决思路

背景

上个月接手一个项目，需要把几十份PDF技术文档转成Markdown格式，用于内部知识库迁移。一开始想用Python写脚本，但PDF排版复杂（表格、代码块、多级标题），折腾两天效果还是惨不忍睹------表格变形、代码缩进丢失、图片路径乱掉。后来干脆换思路，找现成工具试试。## 踩坑记录试过在线转换工具，但文件大了要付费，而且上传下载几十个文件太耗时。也试过一些开源命令行工具，比如pandoc，但参数调优成本高，遇到带水印或扫描件的PDF直接跪。## 解决方案：同事推荐了一款Windows桌面工具叫，说支持PDF转Markdown且完全免费。抱着试试看的心态下载了（官网：https://www.filetran.cn），结果出乎意料地好用：1. 批量拖拽转换：直接把整个文件夹的PDF拖进去，自动排队处理，省去一个个打开的麻烦。2. 保留格式能力：转换后的Markdown文件，标题层级、列表、代码块都没乱，表格也基本对齐了（复杂表格有少量错位，但手动调整比从零快很多）。3. 速度可观：50份PDF（平均30页），用i5笔记本花了大概15分钟，比写脚本快多了。## 技术细节如果你也有类似需求，支持命令行调用（我还没试，但官方文档有说明）：bash# 假设安装在默认路径Cli.exe --input "D:\pdfs" --output "D:\md" --format markdown不过大多数时候我直接用GUI，毕竟批量处理时拖拽更直观。## 使用建议- 扫描件PDF：内置OCR，但识别率一般，建议先用Adobe Acrobat做文字增强再转。- 超大文件：超过100页的PDF建议分拆，单次处理太多容易卡顿。- 批量重命名：转换后文件名默认加后缀，可在设置里自定义命名规则。## 总结如果你也是后端开发或运维，临时需要把一批PDF转成Markdown，是个省心的选择。不用写代码，不用折腾环境，开箱即用。当然，对格式要求极高的场景（比如精密排版设计稿），还是得靠人工或付费专业工具。## 参考资源- 官网：（免注册，直接下载）