离线英文 PDF 翻译工具使用说明

文章目录

  • [离线英文 PDF 翻译工具使用说明](#离线英文 PDF 翻译工具使用说明)
    • [1. 软件用途](#1. 软件用途)
    • [2. 适用文件类型](#2. 适用文件类型)
      • [可直接翻译的 PDF](#可直接翻译的 PDF)
      • [扫描版 PDF](#扫描版 PDF)
    • [3. 离线电脑准备条件](#3. 离线电脑准备条件)
    • [4. 首次安装步骤](#4. 首次安装步骤)
    • [5. 普通文本型 PDF 翻译步骤](#5. 普通文本型 PDF 翻译步骤)
    • [6. 扫描版 PDF 的 OCR 处理步骤](#6. 扫描版 PDF 的 OCR 处理步骤)
      • [6.1 准备 NAPS2 OCR 英文语言包](#6.1 准备 NAPS2 OCR 英文语言包)
      • [6.2 运行 OCR](#6.2 运行 OCR)
      • [6.3 翻译 OCR 后的 PDF](#6.3 翻译 OCR 后的 PDF)
    • [7. 输出格式说明](#7. 输出格式说明)
      • [HTML - easiest to read](#HTML - easiest to read)
      • [TXT - plain text](#TXT - plain text)
      • [PDF - simple Chinese pages](#PDF - simple Chinese pages)
      • [PDF - preserve original layout](#PDF - preserve original layout)
    • [8. 推荐工作流](#8. 推荐工作流)
      • [文本型 PDF](#文本型 PDF)
      • [扫描版 PDF](#扫描版 PDF)
      • [需要最终 PDF](#需要最终 PDF)
    • [9. 常见问题处理](#9. 常见问题处理)
      • [9.1 提示缺少 Python 环境](#9.1 提示缺少 Python 环境)
      • [9.2 报错 WinError 1114 / c10.dll](#9.2 报错 WinError 1114 / c10.dll)
      • [9.3 报错 IndentationError](#9.3 报错 IndentationError)
      • [9.4 翻译 PDF 时闪退](#9.4 翻译 PDF 时闪退)
      • [9.5 翻译结果格式混乱](#9.5 翻译结果格式混乱)
    • [10. 注意事项](#10. 注意事项)
    • [11. 总结](#11. 总结)

为了方便我在离线电脑上看英文pdf做了一个翻译工具,好用谈不上,能用;

离线英文 PDF 翻译工具使用说明

1. 软件用途

本文档介绍一套可在离线 Windows 电脑上运行的英文 PDF 翻译工具。它基于 Argos Translate 离线翻译模型,可将英文内容翻译为中文,适合无法联网的电脑、涉密环境、内网机器或批量处理本地 PDF 文档的场景。

这套工具主要解决以下问题:

  • 离线电脑无法访问在线翻译服务。
  • PDF 文件需要从英文翻译成中文。
  • 扫描版 PDF 没有可复制文字,需要先 OCR。
  • 原版式 PDF 翻译后排版容易混乱,需要提供更易阅读的 HTML/TXT 输出。

工具包内已包含英文转中文模型,不需要在离线电脑下载模型。

2. 适用文件类型

可直接翻译的 PDF

如果 PDF 里的英文可以用鼠标选中、复制,说明 PDF 已经有文本层,可以直接用 run_pdf_gui.bat 翻译。

扫描版 PDF

如果 PDF 是图片扫描件,鼠标无法选中文字,则需要先 OCR。OCR 会给 PDF 增加隐藏文字层,之后才能翻译。

扫描版 PDF 的处理流程是:

text 复制代码
扫描 PDF -> OCR 生成可搜索 PDF -> 翻译 OCR 后的 PDF -> 输出中文 HTML/TXT/PDF

3. 离线电脑准备条件

离线电脑需要提前安装:

工具包目录中应包含这些关键文件:

text 复制代码
install_offline.bat
run_pdf_gui.bat
run_text_gui.bat
run_ocr_with_naps2.bat
repair_win1114_c10.bat
repair_indentation_error.bat
offline\wheelhouse
portable-data\packages
tools\pdf_translate_gui.py

4. 首次安装步骤

在离线电脑上解压工具包,例如:

text 复制代码
D:\argos-pdf-translator

然后按以下步骤操作:

  1. 右键 install_offline.bat
  2. 选择"以管理员身份运行"。
  3. 等待安装完成。

安装脚本会在当前目录创建本地 Python 虚拟环境:

text 复制代码
.venv

如果没有运行 install_offline.bat,直接运行 run_pdf_gui.bat 会提示缺少 Python 环境。这通常不是系统没有 Python,而是当前工具目录还没有创建 .venv

5. 普通文本型 PDF 翻译步骤

适用于可以复制英文文字的 PDF。

  1. 双击运行:
bat 复制代码
run_pdf_gui.bat
  1. 点击 Select PDF,选择英文 PDF。
  2. 确认语言为:
text 复制代码
English (en) -> Chinese (zh)
  1. Output Format 中推荐选择:
text 复制代码
HTML - easiest to read
  1. 点击 Translate PDF

翻译完成后会生成一个中文 HTML 文件,例如:

text 复制代码
paper_zh.html

HTML 文件可以用浏览器打开,排版比直接生成 PDF 更稳定,也可以从浏览器打印或另存为 PDF。

6. 扫描版 PDF 的 OCR 处理步骤

扫描版 PDF 需要先 OCR。

6.1 准备 NAPS2 OCR 英文语言包

在有网电脑下载:

  • NAPS2 安装包
  • 英文 OCR 语言文件 eng.traineddata

将它们拷贝到离线电脑。

在离线电脑安装 NAPS2 后,创建目录:

bat 复制代码
%APPDATA%\NAPS2\components\tesseract4\fast

通常实际路径类似:

text 复制代码
C:\Users\你的用户名\AppData\Roaming\NAPS2\components\tesseract4\fast

然后把 eng.traineddata 复制进去。

6.2 运行 OCR

把扫描 PDF 拖到:

bat 复制代码
run_ocr_with_naps2.bat

或者在命令行中运行:

bat 复制代码
run_ocr_with_naps2.bat "D:\docs\scan.pdf"

脚本会在原文件旁边生成:

text 复制代码
D:\docs\scan_ocr.pdf

6.3 翻译 OCR 后的 PDF

运行:

bat 复制代码
run_pdf_gui.bat

选择刚生成的:

text 复制代码
scan_ocr.pdf

输出格式推荐选择:

text 复制代码
HTML - easiest to read

然后点击 Translate PDF

7. 输出格式说明

run_pdf_gui.bat 中的 Output Format 提供四种格式。

HTML - easiest to read

推荐用于扫描版 PDF 和 OCR PDF。

优点:

  • 排版稳定。
  • 按页和段落显示。
  • 浏览器直接打开。
  • 可以复制到 Word。
  • 可以从浏览器打印成 PDF。

TXT - plain text

适合只需要纯文本内容的情况。

优点:

  • 最干净。
  • 方便复制、搜索、二次编辑。

PDF - simple Chinese pages

生成简洁中文 PDF,不保留原始扫描图片版式。

适合希望得到 PDF 文件,但不要求原版式的情况。

PDF - preserve original layout

尝试保留原 PDF 版式。

不推荐用于扫描/OCR PDF,因为这类 PDF 的隐藏文字层和图片层经常很复杂,容易导致排版混乱或程序崩溃。

8. 推荐工作流

文本型 PDF

text 复制代码
run_pdf_gui.bat -> 选择 PDF -> 输出 HTML

扫描版 PDF

text 复制代码
run_ocr_with_naps2.bat -> 得到 *_ocr.pdf -> run_pdf_gui.bat -> 输出 HTML

需要最终 PDF

推荐先输出 HTML,然后用浏览器打开 HTML,再打印为 PDF。

9. 常见问题处理

9.1 提示缺少 Python 环境

如果 run_pdf_gui.bat 提示:

text 复制代码
Missing Python virtual environment

请先运行:

bat 复制代码
install_offline.bat

建议右键选择"以管理员身份运行"。

9.2 报错 WinError 1114 / c10.dll

如果出现:

text 复制代码
OSError: [WinError 1114]
error loading ...\c10.dll

运行:

bat 复制代码
repair_win1114_c10.bat

然后重新启动:

bat 复制代码
run_pdf_gui.bat

9.3 报错 IndentationError

如果出现:

text 复制代码
IndentationError: expected an indented block after 'try'

运行:

bat 复制代码
repair_indentation_error.bat

然后再运行:

bat 复制代码
repair_win1114_c10.bat

最后重新启动:

bat 复制代码
run_pdf_gui.bat

9.4 翻译 PDF 时闪退

扫描/OCR PDF 不建议使用 PDF - preserve original layout

请改用:

text 复制代码
HTML - easiest to read

如果仍失败,查看输出文件旁边的日志:

text 复制代码
xxx.log.txt

日志里会记录处理到哪一页、哪一段。

9.5 翻译结果格式混乱

扫描 PDF 的原始版式通常很难还原。推荐输出 HTML 或 TXT:

text 复制代码
HTML - easiest to read
TXT - plain text

如果需要 PDF,先输出 HTML,再用浏览器打印成 PDF,通常比直接生成 PDF 更可读。

10. 注意事项

  • OCR 质量取决于扫描清晰度,建议扫描分辨率在 300 DPI 以上。
  • OCR 后请先尝试在 PDF 中选中文字,能选中才说明 OCR 成功。
  • 英文扫描件使用 eng.traineddata 即可。
  • 如果 PDF 同时有英文和中文,可考虑额外准备中文 OCR 语言文件,但英文转中文翻译主要依赖英文识别质量。
  • 翻译模型为离线模型,质量可能不如联网大模型,但适合无网络环境。

11. 总结

这套工具的核心目标是让离线电脑也能完成英文 PDF 到中文内容的转换。对于普通文本型 PDF,可以直接翻译;对于扫描版 PDF,需要先通过 NAPS2 做 OCR,再进行翻译。最终输出推荐使用 HTML,因为它比 PDF 更稳定、更易阅读,也方便复制、编辑和再次导出。

资源链接:https://download.csdn.net/download/weixin_42964413/92867679

相关推荐
xiaoliuliu123452 小时前
Mendeley 2.1 文献管理软件安装教程:文献管理+PDF标注
pdf
其实秋天的枫3 小时前
【26年6月】英语四级高频核心词汇1500+历年真题pdf电子版
经验分享·pdf
优化控制仿真模型1 天前
【2026社工】初级社会工作者历年真题及答案PDF电子版(2010-2025年)
经验分享·pdf
南风微微吹1 天前
【2026最新】英语六级翻译历年真题及答案汇总电子版pdf(2015-2025年12月)
pdf
Bnews1 天前
推荐一些好用的pdf转word软件
pdf·word
南风微微吹1 天前
【2026最新】英语四级翻译历年真题及答案汇总电子版PDF(2015-2025年12月)
pdf
加贝哥|usun1 天前
我的Vibe Coding项目开源了:CHM转PDF批量文档转化工具
pdf·ai编程