推荐一个双语对照的 PDF 翻译工具的开源项目:PDFMathTranslate

今天给大家推荐一个双语对照的 PDF 翻译工具的开源项目:PDFMathTranslate 。

项目介绍:

基于 AI 完整保留排版的 PDF 文档全文双语翻译,支持 Google/DeepL/Ollama/OpenAI 等服务,提供 CLI/GUI/Docker 。

项目亮点:

  • 基于 AI 布局分析和 PDF 指令流分析实现对文档排版的完整保留 ;
  • 保留行内/行间公式和图表样式,对 Latex 文献进行特殊优化;
  • 保留文档可索引目录结构 ;
  • 支持 Google、DeepL 和 OpenAI 等多种翻译服务 。

预览效果:

快速开始

1、确保服务器安装的 Python 版本大于 3.8 且小于 3.12 ;

2、安装此程序 ;

pip install pdf2zh

3、打开 GUI 界面 , 访问:http://localhost:7860/

css 复制代码
pdf2zh -i

4、上传文件并翻译

如上图,我们上传一个英文版 PDF ,上传完成后,在预览区域会显示 PDF 的内容。

接下来,选择翻译服务 Google、Bing、zhipu、Tentcent 等和翻译方向(英文转中文),

最后点击翻译按钮即可。

当然,我们也可以使用 命令行直接翻译:

pdf2zh raft.pdf

基本原理

核心流程:

1、上传文件后,通过 AI 模型 DocLayout-YOLO-DocStructBench-onnx 解析文档格式 ;

2、调用翻译服务 Google 、智普、Bing、DeepL、OpenAI 等开放平台的服务 ;

3、将数据流整合在一起并输出到目标 PDF 。


参考资料:

huggingface.co/wybxc/DocLa...

相关推荐
JINGWHALE13 小时前
设计模式 结构型 外观模式(Facade Pattern)与 常见技术框架应用 解析
前端·人工智能·后端·设计模式·性能优化·系统架构·外观模式
Libby博仙5 小时前
asp.net core mvc的 ViewBag 和 ViewData 和 Module
后端·asp.net·mvc
.生产的驴6 小时前
Elasticsearch 文档批处理 混合处理 批量操作
大数据·后端·elasticsearch·搜索引擎·微信小程序·全文检索·jenkins
JINGWHALE16 小时前
设计模式 结构型 代理模式(Proxy Pattern)与 常见技术框架应用 解析
前端·人工智能·后端·设计模式·性能优化·系统架构·代理模式
蒜蓉大猩猩6 小时前
Node.js - 文件操作
javascript·后端·sql·node.js
ccmjga6 小时前
Spring Boot 3 配置大全系列 —— 如何配置用户的登录与认证?
java·数据库·spring boot·后端·spring·单元测试·gradle
风月歌7 小时前
基于Spring Boot的IT技术交流和分享平台的设计与实现源码
java·spring boot·后端
想要打 Acm 的小周同学呀8 小时前
SpringBoot框架开发中常用的注解
java·spring boot·后端·项目开发
TPBoreas8 小时前
Spring Boot 内置工具类
java·spring boot·后端
绝无仅有8 小时前
用gozero实现教务crm系统中通用的在职继承和离职交接功能
后端·面试·架构