OpenAI推出的开源语音识别工具Whisper,以其卓越的语音识别能力,在音频和视频文件处理领域大放异彩。与此同时,ChatGPT也在翻译领域崭露头角,其强大的翻译能力备受赞誉。因此,一些字幕制作团队敏锐地捕捉到了这两者的结合潜力,开始尝试将它们应用于影视字幕的翻译工作中。
在这个创新的翻译流程中,Whisper扮演着至关重要的角色。它能够将音频或视频文件中的语音内容精准地转录成字幕文本,为后续的翻译工作奠定了坚实的基础。而一旦字幕文本生成完毕,字幕组便会调用ChatGPT、Google Translate等翻译软件,将字幕文本翻译成观众所需的语言。
这种结合Whisper与ChatGPT的翻译方式,不仅提高了字幕翻译的准确性,还极大地提升了工作效率。它让字幕制作团队能够更加轻松、高效地完成影视字幕的翻译工作,为观众带来更加优质的观影体验。
目录
[SubtitleEdit Online](#SubtitleEdit Online)
[Subs AI](#Subs AI)
实现流程
- 调用Whsiper转录音频/视频文件,得到带时间轴的文本字幕 。
- 人工校对审核相应的文本字幕
- 使用ChatGPT、Google Translate、DeepL等将文本字幕翻译为指定语言
SubtitleEdit Online
Nikse.dkhttps://www.nikse.dk/subtitleedit/onlineSubtitleEdit Online是一个功能全面的在线字幕编辑工具,专为视频制作者、翻译者和字幕爱好者设计。SubtitleEdit Online支持包括SubRip (SRT)、MicroDVD、Advanced Sub Station Alpha (ASS)、Sub Station Alpha (SSA)、D-Cinema等在内的多种字幕格式,几乎涵盖了市面上所有常见的字幕格式。用户可以轻松创建新的字幕行,并对现有字幕行的内容和时间进行调整,以满足不同的字幕编辑需求。
SubtitleEdit Online集成了DirectShow、VLC媒体播放器或MPlayer,方便用户在编辑字幕时预览视频,实现字幕与视频的完美匹配。通过提供波形和/或频谱图显示,用户可以更准确地同步字幕与音频内容,确保字幕的准确性和流畅性。编辑完成后,用户可以将字幕导出为所需的格式,以便在其他平台或设备上使用。
Buzz
https://github.com/chidiwilliams/buzzhttps://github.com/chidiwilliams/buzz
- 导入音频和视频文件并将转录文本导出为 TXT、SRT 和 VTT
- 从计算机的麦克风转录和翻译为文本(资源密集型,可能不是实时的,演示)
- 支持 Whisper、Whisper.cpp、Faster Whisper、Whisper 兼容的 Hugging Face 模型和 OpenAI Whisper API
- 命令行界面
- 适用于 Mac、Windows 和 Linux
Buzz 在 App Store 上表现更好。获取 Mac 原生版本的 Buzz,具有更简洁的外观、音频播放、拖放导入、转录文本编辑、搜索等功能。
N46Whisper
https://github.com/Ayanaminn/N46Whisperhttps://github.com/Ayanaminn/N46Whisper
N46Whisper 是基于 Google Colab 的应用。开发初衷旨在提高乃木坂46字幕组的工作效率,适于许多日语视频的字幕制作。此应用基于AI语音识别模型 Whisper的优化部署 faster-whisper.
在输出方面,N46Whisper生成的字幕文件采用了ass格式,并内置了特定字幕组的字幕格式规范,用户只需将生成的字幕文件直接导入Aegisub软件,即可轻松进行后续的翻译及时间轴校正工作,极大地简化了字幕制作的流程。
应用现在可以使用AI翻译工具对转录的文本进行逐行翻译。用户也可以单独上传srt或ass文件来使用翻译模块。目前支持chatGPT
的翻译。
翻译后的文本将于原文合并在一行,以 /N
分割,生成双语对照字幕。
例如:
双语字幕效果为:
Subs AI
https://github.com/abdeladim-s/subsaihttps://github.com/abdeladim-s/subsai
Subs AI是一个强大的开源工具,它结合了OpenAI的Whisper模型及其变体,提供了网页界面(Web-UI)、命令行接口(CLI)以及Python包,致力于自动化字幕生成。Subs AI由abdeladim-s发起和维护,是一个基于GitHub的开源项目。
Subs AI集成了whisper.cpp和faster-whisper等高效率的推理引擎,实现了更快更节省资源的模型运行。除了基础的字幕生成外,Subs AI还具备字幕修改、翻译、同步调整等多种辅助功能,一站式解决字幕处理问题。
PyAutoSRT
PyAutoSRT是一个基于PySimpleGUI的桌面应用程序,它利用免费的Google Speech Recognition API自动生成字幕文件,并可使用非官方的在线Google Translate API将字幕文件翻译成其他语言。
caption2text
https://github.com/F-loat/caption2texthttps://github.com/F-loat/caption2textPWA 版字幕转换为文本工具,支持 ass 及 srt 格式,可批量导出为 word 及 text 文件