一、#开始使用
这是一个开源免费的视频翻译配音软件,可将一种语言发音的视频,翻译为另一种语言发音的视频,并嵌入该语言字幕。 比如有一个英文电影,发音是英文,没有英文字幕,也没有中文字幕,使用这个工具处理后,可以转成带中文字幕,并且带有中文配音的电影。
支持24种语言的视频翻译,不支持的其他语言optionalAutomaticallyDetectPost video,同时还集成了诸如.语音识别/文字配音/字幕翻译/音视频合并/视频字幕合并/视频加水印
Win10/Win11可以下载预打包版本的压缩包,解压后双击sp. exe使用,其他系统可以使用源代码进行部署,部署后执行启动软件。 python sp.py
下载软件的地址、开源地址 :【见下文第三部分】
软件启动后,界面如下,分为:左侧工具栏、顶部菜单、中间工作区三个区域如下所述。

左工具栏
自定义配置转换
单击自定义翻译按钮,右侧将显示可用的操作按钮和选项设置,您可以在该区域选择要翻译的视频。
如图所示,每个选项执行以下操作

-
Select Video:选择要翻译的原始视频,该视频必须要有人类说话声,并且声音要清晰,不得有过大噪声,否则识别结果不会太准确,请注意如果没有说话声,是不可以的,无论有无字幕均不可,因为本软件原理是识别人类说话声音来生成字幕的。 可以按住ctrl键一次选中多个视频,但所有视频中说话语言必须一样。
-
翻译渠道:FreeGoogle和微软可以直接使用,无需代理和配置,其他翻译渠道要么免费但需要代理,如谷歌,要么需要配置如百度翻译、腾讯翻译等。如果你不明白,建议选择微软或FreeGoogle
-
原语:选择视频中的人说话的语言,例如视频中的人说话的声音是英语,那么这里必须选择英语
-
目标语言:选择你想要翻译成的目标语言,例如,如果你想将视频翻译成中文发音并嵌入中文字幕,那么选择中文简版。
-
网络代理地址:如果您使用国内无法访问的服务
-
配音通道:edgeTTS是免费的,无需配置即可直接使用,其他配音通道需要配置或安装,如果不明白,建议选择edgeTTS
-
有声角色:选择配音人才角色,不同的角色有不同的音色,在选择角色之前需要先选择目标语言。
-
更快模式:识别视频中人声使用的模式,不知道如何选择默认的更快模式
-
tiny :识别视频里的人类说话所用模型,默认包含faste模式下的tiny模型,建议选择medium或更大模型,准确率高。 如果选择了faster模式和openai模式,需要额外下载模型到软件目录下的models里,默认只包含faster模式下的tiny模型,其他模型下载地址 Release download all models-下载所有语音识别模型 · jianchang512/stt · GitHub 如果你不太懂,只想简单试试,此处选择tiny即可, 无需下载可直接使用
-
整体识别:默认即可。无需移动
-
嵌入字幕:视频中嵌入字幕的方式,软字幕嵌入需要播放器的支持才能显示,不能显示在网页中,硬字幕嵌入无论在哪里播放都显示,也可以显示在网页中
-
在视频结束时:配音的持续时间可能大于原始内容长度,如果您选择它,视频的最后10ms将被延长,直到配音结束
-
配音自动加速:配音的持续时间可能大于原语言的持续时间,选择它将强制加速达到相同的速度,最大加速可以在菜单中修改-工具/高级设置-高级设置
-
视频自动放慢:选择它放慢视频以对齐视频和声音字幕,也可以在高级设置菜单中控制慢播放幅度
-
背景声音保留:如果选中,则保留视频中的原始背景声音,如背景音乐,如果选中,处理速度会较慢,尤其是视频较大时
-
CUDA加速:如果Win和Linux机器上有N卡,可以使用它加速,需要在机器上安装CUDA环境,见安装教程
-
已生成清理:如果重复运行同一个视频,可以选择删除生成的视频重新生成
-
完成后关闭:任务执行后是否关闭计算机
-
开始处理:一切处理完毕后,单击开始执行
-
导入字幕:如果要使用本地已经存在的字幕,可以点击导入,导入后直接使用,而不是识别。
-
配音的整体说话速度:例如10表示说话速度比正常快10%,-10表示负10%
-
Volume+:从正常音量中添加或减去音量,仅在edgeTTS中有效
-
Tone+:从正常音调中添加或减去音调,仅在edgeTTS下有效
翻译默认已配置。

其实和之前的模式是一样的,只是其他选项是隐藏的,默认配置用于隐藏选项,如果要自定义隐藏选项可以使用自定义配置翻译
识别字幕并进行翻译。

如果你只想根据人声从你已经拥有的原始视频/音频中生成SRT字幕,除了生成字幕之外,你还可以选择这种模式来生成字幕,还可以选择是否将字幕翻译成其他语言
选择视频:选择要为其生成字幕的原始视频,注意视频必须有人声,也可以选择多个视频
翻译渠道:FreeGoogle和Mircosoft无需代理和配置即可直接使用,其他翻译渠道要么免费但需要代理,如Google,要么需要配置,如百度翻译、腾讯翻译等
原语:选择视频中的人说话的语言,例如视频中的人说话的声音是英语,那么这里必须选择英语
目标语言:选择要翻译成的目标语言,例如要将视频翻译成中文发音并嵌入中文字幕,则选择中文简
快速模式:识别视频中人声使用的模式,默认听不懂
微型:用于识别视频中人类语音的模型默认包含快速模式下的微型模型,建议选择精度高的中大型模型。如果选择快速模式和OpenAI模式,则需要将模型下载到软件目录中的模型目录中,该目录默认只包含快速模式下的微型模型和其他模型的下载地址 Release download all models-下载所有语音识别模型 · jianchang512/stt · GitHub
整体识别:默认即可。无需移动
CUDA加速:如果Win和Linux机器上有N卡,可以使用它加速,需要在机器上安装CUDA环境,见安装教程
开始处理:一切处理完毕后,单击开始执行
音频-视频到字幕

模式相同识别字幕并翻译模式相似,只是不支持翻译字幕
语音语言:音视频中的人类语音语言必须有人类说话的声音,否则无法生成字幕
快速模式:识别视频中人声使用的模式,默认听不懂
微型:用于识别视频中人类语音的模型默认包含快速模式下的微型模型,建议选择精度高的中大型模型。如果选择快速模式和OpenAI模式,则需要将模型下载到软件目录中的模型目录中,该目录默认只包含快速模式下的微型模型和其他模型的下载地址 Release download all models-下载所有语音识别模型 · jianchang512/stt · GitHub
整体识别:默认即可。无需移动
启用CUDA:如果Win和Linux机器上有N卡,可以使用它加速,需要在机器上安装CUDA环境,见安装教程
开始执行:一切处理完毕后,单击开始执行
打开识别结果保存目录:打开保存识别字幕的文件夹
SRT 字幕批量翻译

此模式用于将SRT字幕文件翻译成另一种语言的SRT字幕,例如将中文SRT字幕翻译成英文SRT字幕
翻译渠道:FreeGoogle和Mircosoft无需代理和配置即可直接使用,其他翻译渠道要么免费但需要代理,如Google,要么需要配置,如百度翻译、腾讯翻译等
目标语言:选择要翻译成的目标语言,例如要将视频翻译成中文发音并嵌入中文字幕,则选择中文简
从SRT文件导入字幕:从本地导入1个或多个字幕进行翻译,所有字幕必须使用相同的语言
字幕输出格式:
单语字幕:仅翻译目标语言的一个字幕
目标语言在上(双):翻译结果包含原语言和目标语言两个字幕,目标语言在上,原语言在下
目标语言下方(双):翻译结果包含原语言和目标语言两个字幕,目标语言在下方,原语言在上方
打开翻译结果保存目录:打开翻译保存到的文件夹
在此模式下,您可以添加新的目标语言
首先,您需要使用Google或FreeGoogle翻译频道添加目标语言,其他频道不支持新频道。
然后点击
菜单 - 工具/选项 - 高级选项,在打开的窗口中找到"谷歌翻译新语言代码"文本框,在该文本框中填写你想要的目标语言代码,多个代码用英文逗号分隔,例如,维吾尔语的语言代码是 ug,那么在这里填写 ug,如果你还想添加希伯来语,找到希伯来语的语言代码 he,将 he 添加到文本中,记住用英文逗号分隔多个代码。
- 我在哪里可以找到语言代码?访问地址https://cloud.google.com/translate/docs/languages?hl=zh-cn
批量配音字幕

导入一个或多个SRT字幕文件并批量为这些字幕创建配音音频。
从SRT文件导入字幕:从本地导入字幕,可以选择多个字幕,文本语言必须一致
字幕语言:这是SRT字幕中的文本语言
TTS:即配音通道,edgeTTS是免费的,无需配置即可直接使用,其他配音通道需要配置
选择角色:选择声优角色,不同的角色有不同的音色,选择角色前需要选择目标语言
自动加速:不同语言的发音时长一定有差异,配音后可能与字幕时长不对齐。
速度变化百分比:例如,10表示说话速度比正常快10%,-10表示负10%
Volume+:从正常音量中添加或减去音量,仅在edgeTTS中有效
Tone+:从正常音调中添加或减去音调,仅在edgeTTS下有效
它是SRT字幕:如果您正在导入SRT字幕文件,您必须确保选择了该项目,否则将发生错误
输出音频名称:在这里可以设置生成的音频文件的名称,
打开目录:打开构建结果所在的文件夹
开始处理:一切处理完毕后,单击开始执行
视频和音频合并

该功能用于批量一对一合并视频和音频,即将音频文件嵌入视频中,支持一次处理多个视频和音频
合并带字幕的视频

该功能用于批量将视频和SRT字幕一一合并,即将SRT字幕嵌入到视频中创建字幕,并支持一次处理多个视频和字幕
字幕的多格式转换

用于批量在ASS/SRT/VTT格式之间转换字幕
音视频格式转换

用于将音频或视频从一种格式批量转换为另一种格式,支持mp4/avi/mkv/mpeg/mov/mp3/wav/m4a/flac/aac相互转换格式
音视频字幕合并

它用于将单个视频、音频和字幕组合成单个视频文件。
导入字幕并进行编辑

可以从本地在线导入srt/ass/vtt字幕,编辑修改后将字幕导出到本地,可以导出srt/ass/srt/vtt格式,导出ass格式时可以额外设置字体大小、颜色等
顶部菜单栏

翻译设置

除了谷歌翻译和微软翻译之外,所有其他翻译渠道都需要配置密钥、API 地址等,这些可以在这个菜单下进行配置。
TTS设置

除了免费无限的edgeTTS通道外,所有其他语音通道都需要配置密钥、填写API、额外部署等,并在此菜单下配置
语音识别设置

如果需要使用OpenAI的Speech To Text界面,可以在这个菜单下配置密钥,也可以使用豆宝的在线API进行识别,这里也配置了,包括本地部署一旦项目被识别,在这里填写API地址 zh_recogn
工具/选项

高级选项

在这里,您可以通过多种方式自定义软件,以将其转化为您的个人需求。
ffmpeg文件夹
win下载:: https://github.com/jianchang512/pyvideotrans/releases/download/v2.19/ytwin32.exe
Mac 下载:: https://github.com/jianchang512/pyvideotrans/releases/download/v2.19/ytdarwin
Linux 下载:: https://github.com/jianchang512/pyvideotrans/releases/download/v2.19/ytlinux
批量从视频中分离音频

此模式用于将声音与视频文件分离为音频文件。
两个音频流

此模式用于将2个音频文件混合在一起,一个作为背景,另一个作为前景,同时播放
合并两个字幕

该模式用于将2个不同的字幕合并在一起,例如同一个字幕有不同的中英文语言版本,那么可以使用该功能组合成一个字幕文件,组合后的字幕将是双语字幕,同时显示一行中文和一行英文
为视频添加水印

批量为选定视频添加水印图片
中间工作区
根据左侧工具栏中选择的模式,右侧工作区也会相应改变
二、#新手指南
新手快速使用指南
视频翻译配音软件功能丰富,刚开始使用的时候可能会有点复杂,其实核心功能就是用另一种语言为一种语言的视频生成和嵌入配音和字幕,左边的"自定义配置翻译"按钮就是用来完成这个任务的。
除此之外,该软件还集成了一些其他有用的功能,以方便用户。
根据使用场景,您可以执行以下操作:
为音频或视频生成字幕
动作按钮:音频视频转字幕

使用场景:有音频或视频文件但没有对应字幕文件时可以使用此功能,点击左侧的"音频&视频转字幕"按钮,然后选择上方区域的音频和视频文件,指定发音语言,选择"Faster-Whisper Local"和要使用的型号即可。
点击"开始"按钮,等待处理完成,打开结果目录,可以看到生成的SRT字幕文件。
同时生成并翻译字幕
动作按钮:识别字幕并翻译

使用场景:这个功能和之前的功能类似,只是它不仅生成字幕,还可以同时翻译成另一种语言,比如你有一个英文视频,想同时生成英文字幕和翻译成中文字幕,就可以使用这个功能,首先选择音视频中的语言为原语,然后选择目标语言为中文。
点击"开始",处理完成后,结果目录中会有两个SRT字幕文件,一个用于两种语言。
为字幕生成画外音
动作按钮:批量为字幕配音

使用场景:如果你已经有了SRT字幕文件,想要根据字幕生成配音,可以点击此按钮。选择SRT字幕文件,设置字幕中的语言,然后选择配音通道和画外音角色。你也可以根据需要调整语速、音量和音高。点击"执行"按钮后,处理完成后可以打开结果目录,你将能够看到生成的音频文件。
为单个视频嵌入字幕或配音
动作按钮:音视频字幕合并

使用场景:当你有视频文件和字幕文件,想要在你的视频中嵌入字幕时,可以使用这个功能。点击"合并音频和视频字幕"按钮后,选择相应的视频和字幕文件。如果你也想嵌入音频,也可以选择相应的音频文件。处理完成后,合并后的带有嵌入字幕或配音的视频将出现在结果曲库中。
批量合并视频和字幕
动作按钮:视频与字幕合并

使用场景:当您有大量的视频和字幕文件需要一一嵌入时,此功能非常有用。批处理操作比单个进程更高效。唯一的要求是视频和字幕的文件名遵循某些命名约定。像什么视频的相应字幕文件应该被命名。1. mp41.srt
将所有视频和字幕文件放入同一个文件夹中,确保文件名匹配,软件将自动处理并生成合并后的视频文件。
批量合并视频和音频
动作按钮:视频与音频合并

使用场景:如果你有大量的视频和相应的音频文件,想把音频合并到视频中作为配音,可以使用这个功能。类似于批量字幕合并,视频和音频文件的命名遵循相同的规则。像什么对应的音频文件可以是:或者,文件名必须相同。1. mp41.mp31.wav
将这些文件放在同一个文件夹中,软件会自动合并视频和音频文件。
视频翻译和画外音嵌入
动作按钮:自定义配置翻译

使用场景:此功能允许您为您的视频生成翻译配音和字幕。单击"自定义配置翻译"按钮后,选择您要翻译的视频文件,选择翻译通道(如微软翻译),将原始语言设置为视频中的语言,并将目标语言设置为翻译语言。配音通道可以默认选择Ege-TTS,然后选择一个配音角色,并设置字幕嵌入方式。
点击"开始"后,当处理完成后,结果目录中会生成一个带有翻译配音和字幕的视频文件,打开后可以回放并查看效果。
三、#下载安装
如果您使用的是 Windows 10/11,请直接从此页面下载 zip 包,解压到没有空格或中文的路径,然后双击sp.exe才能使用(使用前必须解压,不能直接在 zip 包中双击sp.exe)。
v3.00 平面 3.4G ( 小/中 )
如果您尚未安装旧版本,请在此处下载完整版本
v3.01 补丁包 84MB
如果您已经安装了 2.x 版,则可以下载补丁包并将其解压缩到与 sp.exe 相同的目录中,从而覆盖现有的sp.exe和文件夹
api.exe下载,api.exe是一个用于通过 HTTP 请求调用的文件,不是独立的,你需要先下载完整的包,然后下载同一目录下的 api.exe 和 sp.exe
下载所有型号
为避免包装尺寸,预包装版本仅包含在最小和中等型号中
ffmpeg.exe下载
如果要部署源码,需要将以下两个文件下载到软件根目录下的 ffmpeg 文件夹中