详解各个功能及界面设置-一个开源视频翻译配音工具

本文主要介绍下"视频翻译配音软件"有哪些功能,以及界面中各个选项和按钮的涵义及设置。

软件介绍见:视频翻译与配音

该软件能实现将一种语言的视频,翻译为另一种语言的视频,处理后的新视频中的字幕和人类说话声都将是目标语言。

比如英文说话的视频,不管里面有没有字幕,处理后都将生成中文字幕,并使用中文说话。

主要功能模块有:

1. 标准功能模式:

即选择一个或多个想翻译的视频,然后软件界面中设置该视频的发音语言和想要翻译到的语言,并选择配音角色,将一键转换为目标语言字幕和配音的视频。

2. 视频识别字幕:

如果你只想为一个视频生成字幕文件,比如有一个英语视频,里面没字幕,或者虽然有字幕,但你还想要一个单独的英语字幕srt文件,那么可使用该功能,将根据视频里的说话声识别出文字并输出srt字幕文件。

3. 识别字幕翻译:

和上个功能类似,所不同的是,你可以选择将识别出的字幕翻译为其他语言,比如从英语视频中识别字幕,选择目标语言中文,处理后将输出英语字幕和中文字幕两个srt文件。

4. 视频字幕合并

比如已有处理好的srt格式字幕文件,想嵌入本地已有的视频中作为硬字幕或者软字幕显示,那么可以选择该功能,右侧底部导入字幕文件,然后选择嵌入形式是硬字幕还是软字幕即可。

5. 字幕创建配音

已经有了srt格式字幕文件,只想根据该文件生成配音,那么可选该功能,右侧底部导入字幕,选择tts类型和配音角色就可以了。

6. 音视频转文字

该功能和第二个按钮"视频识别字幕"功能类似,所不同的是,该功能不仅可以从视频识别,还可以从音频中识别,并且一次可以选择多个音视频文件批量识别。

7. 文字合成语音

该功能和"字幕创建配音"功能类似,不过该功能除了根据srt格式字幕创建配音外,还支持任意格式的文字,比如随便输入一行文字,就可以合成声音。

8. 视频音频分离

一般视频都是由声音和图像组成,如果你只想要一个视频里的声音,那么可以使用该功能,将抽离视频中的声音为音频文件。

同时还会创建一个无声视频,即删掉了里面任何声音的无声mp4。

9. 视频、音频、字幕三者合并

比如你已有处理好的字幕文件、配音文件和mp4文件,希望合成他们为一个具有声音 字幕的视频,那么可以选择该功能,并且可以选择是否保留视频中原有的视频。

10. 两个音频文件混合为一个

此功能适合于想创建有背景声音的音频,比如你有一段主播语音,想添加一个背景音乐,就可以使用该功能将主播语音文件和背景音乐文件混合,最终生成一个音频文件,同时有主播语音和背景音乐声。

11.文本字幕翻译

该功能是通用文字翻译,类似百度翻译,但同时支持srt格式字幕的翻译,翻译结果将保留原字幕格式。

12. 文件格式转换

各种音频视频格式之间的转换

13. 背景人声分离

将音频或视频中的声音分离为2个音频文件,分别是人声音频文件、其他声音文件,基于uvr5实现

14. 下载油管视频

输入油管视频的播放页面,即可在此下载视频到计算机。

以上就是该软件的主要功能。

再介绍下软件界面中各个设置选项的涵义:

  1. 选择视频按钮:这个是用来从电脑里选择要处理的视频,一次可以选择多个视频。

  2. 保存到.. 按钮:用来选择将处理后的文件保存到哪里去,如果不选择,默认就和原始视频保存在一个文件夹内的_video_out内。

  3. 右上角打开按钮:用来打开目标文件夹。

  4. 翻译渠道按钮:用来选择翻译文字和字幕时使用哪个翻译,支持百度翻译 google翻译 微软翻译 腾讯翻译 chatgpt翻译等。

  5. 代理地址 文本框:如果你使用google翻译或者chatGPT,需要在此填写代理地址才可以访问,代理格式为 http://127.0.0.1:数字端口号。

  6. 原始语言:就是视频里的人类说话语言。

  7. 目标语言:你想翻译为哪种语言。

  8. TTS类型:使用什么配音渠道,目前支持免费的edgeTTS、openaiTTS-1、elevenlabsTTS和原声音色配音项目clone-voice。

  9. 配音角色:即发音角色,不同角色音色不同,有女声男声等。

  10. 试听按钮:在选好配音角色之后,可以点击试听按钮,感受当前角色的声音,注意可能需要几秒钟来生成和输出声音。

  11. faster模型openai模型:这两个模型是用来将视频里的人类说话声转为文字的,都可以选择base small medium large-v2 large-v3,从base到large-v3,效果越来越好,但所需计算机硬件条件也越来越高。具体可阅读上一篇文章。

语音识别模型哪家强,faster-whisper还是openai-whisper?语音识别选择哪个模型

  1. 整体模式和预先分割:

整体模式是将整个说话声都交给模型处理,每个字幕时长也有模型控制,效果更好,但也可能出现超长字幕遮住整个视频的情况。整体模式适合有明显停顿并且没背景声音的视频。

预先分割是指提前将说话声切割为10秒左右的片段,依次交由模型处理,字幕时间比较均匀,但可能出现断句问题,即一句话没说完就强制断开了。

具体如何选择,可以根据视频情况而定。

  1. 嵌入字幕:即将字幕以什么形式嵌入视频中,可选不嵌入,硬字幕嵌入,软字幕嵌入。

硬字幕嵌入是指无论在哪里播放,始终会在播放界面显示,无法隐藏,如果你希望在网页播放时也能显示字幕,难么应该选该项。

软字幕是指以链接形式嵌入:如果播放器支持,可以选择显示或隐藏字幕,但要注意,网页中播放是不支持软字幕的,而且很多播放器需要将字幕文件命名为和视频一样的名称,并放在同一位置才能显示。某些国产播放器还需要手动将srt文件转为gbk编码,否则显示会乱码。

  1. 静音片段:填写整数数字,代表以多少的静音间隔切分说话声,默认500,即在检测到两段说话声之间的停顿大于等于500ms时,将在此切割为两部分。如果设置太小,可能导致大量的1s 2s等过短片段,过大可能导致30s 60s等过长片段,造成字幕占满屏幕。

  2. 配音语速: 是否对配音进行加减速。

如果加速,填写+开头后跟数字和%号,比如+50%,代表将在正常速度基础上速度加快50%,即1.5倍速。

如果减速,使用负号-开头,比如-50%,代表在正常基础上降低50%的速度,即0.5倍速。

  1. 配音自动加速视频自动慢速:同一句话,在不同语言下发音时长是不同的,因此翻译配音后,时长必然发生变化,带来的影响就是字幕 声音 画面不同步,可通过两种方式来调节。

配音自动加速,是指当配音后的时长大于原发音时长时,通过加快配音语速来缩短配音时长,以达到和原时长一致。

视频自动慢速是指,如果配音后时长比原时长更长,配音时长不变,将原视频里对应时长的视频慢速播放,延长视频播放时长和配音时长一致。

存在的问题是:配音自动加速可能会太快,导致听不清在说什么,而视频慢速播放又可能太慢,简直成了慢动作回放。

可以通过同时选中该两项,稍稍进行缓解。当然最好方式还是在识别后和翻译后手动精简字幕避免字幕太长。

  1. CUDA加速:如果你有英伟达显卡并且配置好了cuda环境,可选中该项,将明显提升速度。具体安装配置cuda环境查看之前一篇文章。

Windows操作系统安装配置CUDA12.3和cuDNN

  1. 保留背景音:如果不选择该项,那么配音后,视频中将不存在原视频里的背景声音,如果你想保留,可以选择该项。另外如果背景音太大或识别效果不好时,除了使用large大模型外,也可以选择启用该项,将会先分离背景声音后再做识别,效果可能更好。
  1. 添加背景音乐按钮:如果你想对结果视频额外加一个背景音,比如一段轻音乐,那么你可以点击该按钮,选择一个音频文件,将在视频生成前,将该音频文件嵌入作为背景声音播放。

如果添加后在执行前又不想要它了,直接在右侧文本框内删除显示的内容即可。

  1. 右侧字幕区大文本框:识别后和翻译后均会在此显示字幕内容,你可以点击当时左侧出现的"暂停按钮"在暂停后修改字幕。
  1. 字幕区下方的导入字幕按钮:可以导入你本地已有的字幕,当导入后,就不再从视频中识别了,而是直接使用你导入的。

  2. 导出字幕按钮:可将字幕区当前显示的内容导出到计算机。

  3. 字幕区下方试听按钮:试听当前字幕区内容

  4. 设置多角色:为每一行字幕指定一个配音角色,实现多角色配音。

  5. 菜单设置:可以在这里分别设置各个翻译渠道用到的key和密钥等信息,比如百度翻译、腾讯翻译、chatGPT、DeepL等信息均在此点开查看。

  1. 菜单支持与帮助:该菜单下是各个有用工具、开源地址、文档站点、常见问题页面等链接,比较有用。

视频翻译与配音开源地址:

github.com/jianchang51...

相关推荐
冬奇Lab8 分钟前
一天一个开源项目(第17篇):ViMax - 多智能体视频生成框架,导演、编剧、制片人全包
开源·音视频开发
一个处女座的程序猿2 小时前
AI之Agent之VibeCoding:《Vibe Coding Kills Open Source》翻译与解读
人工智能·开源·vibecoding·氛围编程
一只大侠的侠3 小时前
React Native开源鸿蒙跨平台训练营 Day16自定义 useForm 高性能验证
flutter·开源·harmonyos
IvorySQL3 小时前
PostgreSQL 分区表的 ALTER TABLE 语句执行机制解析
数据库·postgresql·开源
一只大侠的侠4 小时前
Flutter开源鸿蒙跨平台训练营 Day11从零开发商品详情页面
flutter·开源·harmonyos
一只大侠的侠4 小时前
React Native开源鸿蒙跨平台训练营 Day18自定义useForm表单管理实战实现
flutter·开源·harmonyos
一只大侠的侠4 小时前
React Native开源鸿蒙跨平台训练营 Day20自定义 useValidator 实现高性能表单验证
flutter·开源·harmonyos
晚霞的不甘5 小时前
Flutter for OpenHarmony 可视化教学:A* 寻路算法的交互式演示
人工智能·算法·flutter·架构·开源·音视频
晚霞的不甘6 小时前
Flutter for OpenHarmony 实现计算几何:Graham Scan 凸包算法的可视化演示
人工智能·算法·flutter·架构·开源·音视频
猫头虎6 小时前
OpenClaw-VSCode:在 VS Code 里玩转 OpenClaw,远程管理+SSH 双剑合璧
ide·vscode·开源·ssh·github·aigc·ai编程