离线英文 PDF 翻译工具使用说明

文章目录

[离线英文 PDF 翻译工具使用说明](#离线英文 PDF 翻译工具使用说明)
- [1. 软件用途](#1. 软件用途)
- [2. 适用文件类型](#2. 适用文件类型)
- - [可直接翻译的 PDF](#可直接翻译的 PDF)
  - [扫描版 PDF](#扫描版 PDF)
- [3. 离线电脑准备条件](#3. 离线电脑准备条件)
- [4. 首次安装步骤](#4. 首次安装步骤)
- [5. 普通文本型 PDF 翻译步骤](#5. 普通文本型 PDF 翻译步骤)
- [6. 扫描版 PDF 的 OCR 处理步骤](#6. 扫描版 PDF 的 OCR 处理步骤)
- - [6.1 准备 NAPS2 OCR 英文语言包](#6.1 准备 NAPS2 OCR 英文语言包)
  - [6.2 运行 OCR](#6.2 运行 OCR)
  - [6.3 翻译 OCR 后的 PDF](#6.3 翻译 OCR 后的 PDF)
- [7. 输出格式说明](#7. 输出格式说明)
- - [HTML - easiest to read](#HTML - easiest to read)
  - [TXT - plain text](#TXT - plain text)
  - [PDF - simple Chinese pages](#PDF - simple Chinese pages)
  - [PDF - preserve original layout](#PDF - preserve original layout)
- [8. 推荐工作流](#8. 推荐工作流)
- - [文本型 PDF](#文本型 PDF)
  - [扫描版 PDF](#扫描版 PDF)
  - [需要最终 PDF](#需要最终 PDF)
- [9. 常见问题处理](#9. 常见问题处理)
- - [9.1 提示缺少 Python 环境](#9.1 提示缺少 Python 环境)
  - [9.2 报错 WinError 1114 / c10.dll](#9.2 报错 WinError 1114 / c10.dll)
  - [9.3 报错 IndentationError](#9.3 报错 IndentationError)
  - [9.4 翻译 PDF 时闪退](#9.4 翻译 PDF 时闪退)
  - [9.5 翻译结果格式混乱](#9.5 翻译结果格式混乱)
- [10. 注意事项](#10. 注意事项)
- [11. 总结](#11. 总结)

为了方便我在离线电脑上看英文pdf做了一个翻译工具，好用谈不上，能用；

离线英文 PDF 翻译工具使用说明

1. 软件用途

本文档介绍一套可在离线 Windows 电脑上运行的英文 PDF 翻译工具。它基于 Argos Translate 离线翻译模型，可将英文内容翻译为中文，适合无法联网的电脑、涉密环境、内网机器或批量处理本地 PDF 文档的场景。

这套工具主要解决以下问题：

离线电脑无法访问在线翻译服务。
PDF 文件需要从英文翻译成中文。
扫描版 PDF 没有可复制文字，需要先 OCR。
原版式 PDF 翻译后排版容易混乱，需要提供更易阅读的 HTML/TXT 输出。

工具包内已包含英文转中文模型，不需要在离线电脑下载模型。

2. 适用文件类型

可直接翻译的 PDF

如果 PDF 里的英文可以用鼠标选中、复制，说明 PDF 已经有文本层，可以直接用 run_pdf_gui.bat 翻译。

扫描版 PDF

如果 PDF 是图片扫描件，鼠标无法选中文字，则需要先 OCR。OCR 会给 PDF 增加隐藏文字层，之后才能翻译。

扫描版 PDF 的处理流程是：

text 复制代码

扫描 PDF -> OCR 生成可搜索 PDF -> 翻译 OCR 后的 PDF -> 输出中文 HTML/TXT/PDF

3. 离线电脑准备条件

离线电脑需要提前安装：

64 位 Python 3.12
NAPS2，仅扫描版 PDF 需要
NAPS2 英文 OCR 语言文件 eng.traineddata，仅扫描版 PDF 需要
NAPS2下载链接：https://www.naps2.com/download

工具包目录中应包含这些关键文件：

text 复制代码

install_offline.bat
run_pdf_gui.bat
run_text_gui.bat
run_ocr_with_naps2.bat
repair_win1114_c10.bat
repair_indentation_error.bat
offline\wheelhouse
portable-data\packages
tools\pdf_translate_gui.py

4. 首次安装步骤

在离线电脑上解压工具包，例如：

text 复制代码

D:\argos-pdf-translator

然后按以下步骤操作：

右键 install_offline.bat。
选择"以管理员身份运行"。
等待安装完成。

安装脚本会在当前目录创建本地 Python 虚拟环境：

text 复制代码

.venv

如果没有运行 install_offline.bat，直接运行 run_pdf_gui.bat 会提示缺少 Python 环境。这通常不是系统没有 Python，而是当前工具目录还没有创建 .venv。

5. 普通文本型 PDF 翻译步骤

适用于可以复制英文文字的 PDF。

双击运行：

bat 复制代码

run_pdf_gui.bat

点击 Select PDF，选择英文 PDF。
确认语言为：

text 复制代码

English (en) -> Chinese (zh)

在 Output Format 中推荐选择：

text 复制代码

HTML - easiest to read

点击 Translate PDF。

翻译完成后会生成一个中文 HTML 文件，例如：

text 复制代码

paper_zh.html

HTML 文件可以用浏览器打开，排版比直接生成 PDF 更稳定，也可以从浏览器打印或另存为 PDF。

6. 扫描版 PDF 的 OCR 处理步骤

扫描版 PDF 需要先 OCR。

6.1 准备 NAPS2 OCR 英文语言包

在有网电脑下载：

NAPS2 安装包
英文 OCR 语言文件 eng.traineddata

将它们拷贝到离线电脑。

在离线电脑安装 NAPS2 后，创建目录：

bat 复制代码

%APPDATA%\NAPS2\components\tesseract4\fast

通常实际路径类似：

text 复制代码

C:\Users\你的用户名\AppData\Roaming\NAPS2\components\tesseract4\fast

然后把 eng.traineddata 复制进去。

6.2 运行 OCR

把扫描 PDF 拖到：

bat 复制代码

run_ocr_with_naps2.bat

或者在命令行中运行：

bat 复制代码

run_ocr_with_naps2.bat "D:\docs\scan.pdf"

脚本会在原文件旁边生成：

text 复制代码

D:\docs\scan_ocr.pdf

6.3 翻译 OCR 后的 PDF

运行：

bat 复制代码

run_pdf_gui.bat

选择刚生成的：

text 复制代码

scan_ocr.pdf

输出格式推荐选择：

text 复制代码

HTML - easiest to read

然后点击 Translate PDF。

7. 输出格式说明

run_pdf_gui.bat 中的 Output Format 提供四种格式。

HTML - easiest to read

推荐用于扫描版 PDF 和 OCR PDF。

优点：

排版稳定。
按页和段落显示。
浏览器直接打开。
可以复制到 Word。
可以从浏览器打印成 PDF。

TXT - plain text

适合只需要纯文本内容的情况。

优点：

最干净。
方便复制、搜索、二次编辑。

PDF - simple Chinese pages

生成简洁中文 PDF，不保留原始扫描图片版式。

适合希望得到 PDF 文件，但不要求原版式的情况。

PDF - preserve original layout

尝试保留原 PDF 版式。

不推荐用于扫描/OCR PDF，因为这类 PDF 的隐藏文字层和图片层经常很复杂，容易导致排版混乱或程序崩溃。

8. 推荐工作流

文本型 PDF

text 复制代码

run_pdf_gui.bat -> 选择 PDF -> 输出 HTML

扫描版 PDF

text 复制代码

run_ocr_with_naps2.bat -> 得到 *_ocr.pdf -> run_pdf_gui.bat -> 输出 HTML

需要最终 PDF

推荐先输出 HTML，然后用浏览器打开 HTML，再打印为 PDF。

9. 常见问题处理

9.1 提示缺少 Python 环境

如果 run_pdf_gui.bat 提示：

text 复制代码

Missing Python virtual environment

请先运行：

bat 复制代码

install_offline.bat

建议右键选择"以管理员身份运行"。

9.2 报错 WinError 1114 / c10.dll

如果出现：

text 复制代码

OSError: [WinError 1114]
error loading ...\c10.dll

运行：

bat 复制代码

repair_win1114_c10.bat

然后重新启动：

bat 复制代码

run_pdf_gui.bat

9.3 报错 IndentationError

如果出现：

text 复制代码

IndentationError: expected an indented block after 'try'

运行：

bat 复制代码

repair_indentation_error.bat

然后再运行：

bat 复制代码

repair_win1114_c10.bat

最后重新启动：

bat 复制代码

run_pdf_gui.bat

9.4 翻译 PDF 时闪退

扫描/OCR PDF 不建议使用 PDF - preserve original layout。

请改用：

text 复制代码

HTML - easiest to read

如果仍失败，查看输出文件旁边的日志：

text 复制代码

xxx.log.txt

日志里会记录处理到哪一页、哪一段。

9.5 翻译结果格式混乱

扫描 PDF 的原始版式通常很难还原。推荐输出 HTML 或 TXT：

text 复制代码

HTML - easiest to read
TXT - plain text

如果需要 PDF，先输出 HTML，再用浏览器打印成 PDF，通常比直接生成 PDF 更可读。

10. 注意事项

OCR 质量取决于扫描清晰度，建议扫描分辨率在 300 DPI 以上。
OCR 后请先尝试在 PDF 中选中文字，能选中才说明 OCR 成功。
英文扫描件使用 eng.traineddata 即可。
如果 PDF 同时有英文和中文，可考虑额外准备中文 OCR 语言文件，但英文转中文翻译主要依赖英文识别质量。
翻译模型为离线模型，质量可能不如联网大模型，但适合无网络环境。

11. 总结

这套工具的核心目标是让离线电脑也能完成英文 PDF 到中文内容的转换。对于普通文本型 PDF，可以直接翻译；对于扫描版 PDF，需要先通过 NAPS2 做 OCR，再进行翻译。最终输出推荐使用 HTML，因为它比 PDF 更稳定、更易阅读，也方便复制、编辑和再次导出。

资源链接：https://download.csdn.net/download/weixin_42964413/92867679