在处理外文资料时,经常会遇到一种 PDF:文件后缀是 .pdf,但里面的文字无法复制,也不能直接搜索。这类文件通常是扫描版 PDF,本质上是图片页面,不是带文本层的 PDF。
扫描版 PDF 翻译的关键点不是调用哪个翻译接口,而是先把"图片文字"变成"可处理文本",再进入翻译和排版流程。
1. 先判断 PDF 类型
可以用一个简单方法判断:
- 能选中文字、能复制:大概率是文字型 PDF。
- 只能选中整页图片,或无法选中文字:大概率是扫描版 PDF。
扫描版 PDF 常见来源:
- 扫描仪生成的合同、报告、说明书
- 手机拍照合成的 PDF
- 老论文、旧手册、纸质资料扫描件
- 带印章、批注、手写标记的文件
- 图片格式转成的 PDF
2. OCR 识别是第一步
OCR 会把图片里的文字识别成可编辑文本。识别质量主要受这些因素影响:
- 原图是否清晰
- 页面是否倾斜
- 背景是否有噪点、水印或阴影
- 字体是否过小
- 表格线是否完整
- 是否存在多栏、脚注、页眉页脚
如果原图很模糊,直接进入翻译通常会放大错误。比较稳的做法是先拿 1-2 页典型页面测试 OCR 结果。
3. 识别后必须检查关键字段
OCR 最容易错的不是普通段落,而是结构化字段:
- 数字、金额、百分比
- 单位、币种
- 产品型号
- 表格里的编号
- 公式、符号、脚注
- 人名、公司名、专有名词
例如英文资料里,I、l、1 很容易混淆;技术资料里的 0 和 O 也需要额外检查。
4. 翻译后还要处理排版
扫描版 PDF 翻译完之后,译文长度会变化。中文、英文、德文、法文之间的长度差异很明显,所以需要检查:
- 文字是否溢出边界
- 表格是否变形
- 图片说明是否错位
- 多栏内容顺序是否正确
- 页眉页脚是否被误改
- 章节标题和编号是否保持一致
如果只是个人阅读,可以降低排版要求。如果文件要交付给客户、老师、供应商,就需要把译文页面重新整理到可读、可打印、可交付的状态。
5. 推荐处理流程
一个比较稳的流程是:
- 判断 PDF 是否为扫描版。
- 对页面做 OCR 识别。
- 检查数字、型号、单位、公式等关键字段。
- 翻译正文和说明文字。
- 校对译文,尤其是表格和专业术语。
- 重新整理页面排版。
- 导出 PDF 或可编辑文档。
更完整的示例和注意事项可以看这篇:
如果处理的是文字型 PDF,重点会变成"翻译后保留原排版",可以参考: