98秒转录2.5小时音频，最强音频翻译神器IFW下载部署

老艾的AI世界2023-12-29 14:41

IFW是一款功能强大的音频翻译工具，具备高速转录能力，能在短时间内完成大量音频处理，提高工作效率

以下是IFW在 Nvidia A100 - 80GB 上运行的一些基准测试：

核心特性

1、自动转录，可快速将长音频文件转录为文本，无需手动逐字逐句

2、支持说话人分割和区分，识别不同说话人，有助于分析和整理多人音频

3、按词或片段生成时间戳文本，方便字幕制作

4、支持100种语言的转录（含粤语）或者翻译成英文

底层框架

Whisper-Large-v3：OpenAI推出的一种用于自动语音识别（ASR）和语音翻译的预训练模型，经过168万小时的标记数据训练，显示出强大的能力，可以在不需要微调的情况下推广到许多数据集和领域

Transformers+Torch+Pyannote：加速转录和语音分段

功能说明

1、选择操作系统，windows或者苹果系统

2、选择音频文件，不能是视频文件

3、选择输出路径，转录或翻译完成后会生成output.json文件

4、选择音频语言，程序会识别语言也可以手动选择语言，选择与音频不同的语言，生成的结果是选择后的语言

5、输出选择后的语言或翻译成英文

6、选择处理速度，这个值并不是越大越好，博主GTX1660的显卡设置成1最为合适，配置好可以适当调大

7、记录音频形式，按词或片段记录音频，根据自己的需要选择，文件末尾会输出完整的文本

点击开始按钮，控制台会打印时间进度，程序执行完毕会给出output.json文件的生成路径