文章目录
- [离线英文 PDF 翻译工具使用说明](#离线英文 PDF 翻译工具使用说明)
-
- [1. 软件用途](#1. 软件用途)
- [2. 适用文件类型](#2. 适用文件类型)
-
- [可直接翻译的 PDF](#可直接翻译的 PDF)
- [扫描版 PDF](#扫描版 PDF)
- [3. 离线电脑准备条件](#3. 离线电脑准备条件)
- [4. 首次安装步骤](#4. 首次安装步骤)
- [5. 普通文本型 PDF 翻译步骤](#5. 普通文本型 PDF 翻译步骤)
- [6. 扫描版 PDF 的 OCR 处理步骤](#6. 扫描版 PDF 的 OCR 处理步骤)
-
- [6.1 准备 NAPS2 OCR 英文语言包](#6.1 准备 NAPS2 OCR 英文语言包)
- [6.2 运行 OCR](#6.2 运行 OCR)
- [6.3 翻译 OCR 后的 PDF](#6.3 翻译 OCR 后的 PDF)
- [7. 输出格式说明](#7. 输出格式说明)
-
- [HTML - easiest to read](#HTML - easiest to read)
- [TXT - plain text](#TXT - plain text)
- [PDF - simple Chinese pages](#PDF - simple Chinese pages)
- [PDF - preserve original layout](#PDF - preserve original layout)
- [8. 推荐工作流](#8. 推荐工作流)
-
- [文本型 PDF](#文本型 PDF)
- [扫描版 PDF](#扫描版 PDF)
- [需要最终 PDF](#需要最终 PDF)
- [9. 常见问题处理](#9. 常见问题处理)
-
- [9.1 提示缺少 Python 环境](#9.1 提示缺少 Python 环境)
- [9.2 报错 WinError 1114 / c10.dll](#9.2 报错 WinError 1114 / c10.dll)
- [9.3 报错 IndentationError](#9.3 报错 IndentationError)
- [9.4 翻译 PDF 时闪退](#9.4 翻译 PDF 时闪退)
- [9.5 翻译结果格式混乱](#9.5 翻译结果格式混乱)
- [10. 注意事项](#10. 注意事项)
- [11. 总结](#11. 总结)
为了方便我在离线电脑上看英文pdf做了一个翻译工具,好用谈不上,能用;
离线英文 PDF 翻译工具使用说明
1. 软件用途
本文档介绍一套可在离线 Windows 电脑上运行的英文 PDF 翻译工具。它基于 Argos Translate 离线翻译模型,可将英文内容翻译为中文,适合无法联网的电脑、涉密环境、内网机器或批量处理本地 PDF 文档的场景。
这套工具主要解决以下问题:
- 离线电脑无法访问在线翻译服务。
- PDF 文件需要从英文翻译成中文。
- 扫描版 PDF 没有可复制文字,需要先 OCR。
- 原版式 PDF 翻译后排版容易混乱,需要提供更易阅读的 HTML/TXT 输出。
工具包内已包含英文转中文模型,不需要在离线电脑下载模型。
2. 适用文件类型
可直接翻译的 PDF
如果 PDF 里的英文可以用鼠标选中、复制,说明 PDF 已经有文本层,可以直接用 run_pdf_gui.bat 翻译。
扫描版 PDF
如果 PDF 是图片扫描件,鼠标无法选中文字,则需要先 OCR。OCR 会给 PDF 增加隐藏文字层,之后才能翻译。
扫描版 PDF 的处理流程是:
text
扫描 PDF -> OCR 生成可搜索 PDF -> 翻译 OCR 后的 PDF -> 输出中文 HTML/TXT/PDF
3. 离线电脑准备条件
离线电脑需要提前安装:
- 64 位 Python 3.12
- NAPS2,仅扫描版 PDF 需要
- NAPS2 英文 OCR 语言文件
eng.traineddata,仅扫描版 PDF 需要 - NAPS2下载链接:https://www.naps2.com/download
工具包目录中应包含这些关键文件:
text
install_offline.bat
run_pdf_gui.bat
run_text_gui.bat
run_ocr_with_naps2.bat
repair_win1114_c10.bat
repair_indentation_error.bat
offline\wheelhouse
portable-data\packages
tools\pdf_translate_gui.py
4. 首次安装步骤
在离线电脑上解压工具包,例如:
text
D:\argos-pdf-translator
然后按以下步骤操作:
- 右键
install_offline.bat。 - 选择"以管理员身份运行"。
- 等待安装完成。
安装脚本会在当前目录创建本地 Python 虚拟环境:
text
.venv
如果没有运行 install_offline.bat,直接运行 run_pdf_gui.bat 会提示缺少 Python 环境。这通常不是系统没有 Python,而是当前工具目录还没有创建 .venv。
5. 普通文本型 PDF 翻译步骤
适用于可以复制英文文字的 PDF。
- 双击运行:
bat
run_pdf_gui.bat
- 点击
Select PDF,选择英文 PDF。 - 确认语言为:
text
English (en) -> Chinese (zh)
- 在
Output Format中推荐选择:
text
HTML - easiest to read
- 点击
Translate PDF。
翻译完成后会生成一个中文 HTML 文件,例如:
text
paper_zh.html
HTML 文件可以用浏览器打开,排版比直接生成 PDF 更稳定,也可以从浏览器打印或另存为 PDF。
6. 扫描版 PDF 的 OCR 处理步骤
扫描版 PDF 需要先 OCR。
6.1 准备 NAPS2 OCR 英文语言包
在有网电脑下载:
- NAPS2 安装包
- 英文 OCR 语言文件
eng.traineddata
将它们拷贝到离线电脑。
在离线电脑安装 NAPS2 后,创建目录:
bat
%APPDATA%\NAPS2\components\tesseract4\fast
通常实际路径类似:
text
C:\Users\你的用户名\AppData\Roaming\NAPS2\components\tesseract4\fast
然后把 eng.traineddata 复制进去。
6.2 运行 OCR
把扫描 PDF 拖到:
bat
run_ocr_with_naps2.bat
或者在命令行中运行:
bat
run_ocr_with_naps2.bat "D:\docs\scan.pdf"
脚本会在原文件旁边生成:
text
D:\docs\scan_ocr.pdf
6.3 翻译 OCR 后的 PDF
运行:
bat
run_pdf_gui.bat
选择刚生成的:
text
scan_ocr.pdf
输出格式推荐选择:
text
HTML - easiest to read
然后点击 Translate PDF。
7. 输出格式说明
run_pdf_gui.bat 中的 Output Format 提供四种格式。
HTML - easiest to read
推荐用于扫描版 PDF 和 OCR PDF。
优点:
- 排版稳定。
- 按页和段落显示。
- 浏览器直接打开。
- 可以复制到 Word。
- 可以从浏览器打印成 PDF。
TXT - plain text
适合只需要纯文本内容的情况。
优点:
- 最干净。
- 方便复制、搜索、二次编辑。
PDF - simple Chinese pages
生成简洁中文 PDF,不保留原始扫描图片版式。
适合希望得到 PDF 文件,但不要求原版式的情况。
PDF - preserve original layout
尝试保留原 PDF 版式。
不推荐用于扫描/OCR PDF,因为这类 PDF 的隐藏文字层和图片层经常很复杂,容易导致排版混乱或程序崩溃。
8. 推荐工作流
文本型 PDF
text
run_pdf_gui.bat -> 选择 PDF -> 输出 HTML
扫描版 PDF
text
run_ocr_with_naps2.bat -> 得到 *_ocr.pdf -> run_pdf_gui.bat -> 输出 HTML
需要最终 PDF
推荐先输出 HTML,然后用浏览器打开 HTML,再打印为 PDF。
9. 常见问题处理
9.1 提示缺少 Python 环境
如果 run_pdf_gui.bat 提示:
text
Missing Python virtual environment
请先运行:
bat
install_offline.bat
建议右键选择"以管理员身份运行"。
9.2 报错 WinError 1114 / c10.dll
如果出现:
text
OSError: [WinError 1114]
error loading ...\c10.dll
运行:
bat
repair_win1114_c10.bat
然后重新启动:
bat
run_pdf_gui.bat
9.3 报错 IndentationError
如果出现:
text
IndentationError: expected an indented block after 'try'
运行:
bat
repair_indentation_error.bat
然后再运行:
bat
repair_win1114_c10.bat
最后重新启动:
bat
run_pdf_gui.bat
9.4 翻译 PDF 时闪退
扫描/OCR PDF 不建议使用 PDF - preserve original layout。
请改用:
text
HTML - easiest to read
如果仍失败,查看输出文件旁边的日志:
text
xxx.log.txt
日志里会记录处理到哪一页、哪一段。
9.5 翻译结果格式混乱
扫描 PDF 的原始版式通常很难还原。推荐输出 HTML 或 TXT:
text
HTML - easiest to read
TXT - plain text
如果需要 PDF,先输出 HTML,再用浏览器打印成 PDF,通常比直接生成 PDF 更可读。
10. 注意事项
- OCR 质量取决于扫描清晰度,建议扫描分辨率在 300 DPI 以上。
- OCR 后请先尝试在 PDF 中选中文字,能选中才说明 OCR 成功。
- 英文扫描件使用
eng.traineddata即可。 - 如果 PDF 同时有英文和中文,可考虑额外准备中文 OCR 语言文件,但英文转中文翻译主要依赖英文识别质量。
- 翻译模型为离线模型,质量可能不如联网大模型,但适合无网络环境。
11. 总结
这套工具的核心目标是让离线电脑也能完成英文 PDF 到中文内容的转换。对于普通文本型 PDF,可以直接翻译;对于扫描版 PDF,需要先通过 NAPS2 做 OCR,再进行翻译。最终输出推荐使用 HTML,因为它比 PDF 更稳定、更易阅读,也方便复制、编辑和再次导出。
资源链接:https://download.csdn.net/download/weixin_42964413/92867679