扫描版 PDF 翻译流程：OCR 识别、译文校对和排版保留

在处理外文资料时，经常会遇到一种 PDF：文件后缀是 .pdf，但里面的文字无法复制，也不能直接搜索。这类文件通常是扫描版 PDF，本质上是图片页面，不是带文本层的 PDF。

扫描版 PDF 翻译的关键点不是调用哪个翻译接口，而是先把"图片文字"变成"可处理文本"，再进入翻译和排版流程。

可以用一个简单方法判断：

扫描版 PDF 常见来源：

OCR 会把图片里的文字识别成可编辑文本。识别质量主要受这些因素影响：

如果原图很模糊，直接进入翻译通常会放大错误。比较稳的做法是先拿 1-2 页典型页面测试 OCR 结果。

OCR 最容易错的不是普通段落，而是结构化字段：

例如英文资料里，I、l、1 很容易混淆；技术资料里的 0 和 O 也需要额外检查。

扫描版 PDF 翻译完之后，译文长度会变化。中文、英文、德文、法文之间的长度差异很明显，所以需要检查：

如果只是个人阅读，可以降低排版要求。如果文件要交付给客户、老师、供应商，就需要把译文页面重新整理到可读、可打印、可交付的状态。

一个比较稳的流程是：

更完整的示例和注意事项可以看这篇：

如果处理的是文字型 PDF，重点会变成"翻译后保留原排版"，可以参考：