实时语音转文字(基于NAudio+Whisper+VOSP+Websocket)

今天花了大半天时间研究一个实时语音转文字的程序,目的还包括能够唤醒服务,并把命令提供给第三方。

由于这方面的材料已经很多,我就只把过程中遇到的和解决方案简单说下。源代码开源在AudioWhisper: 实时语音转文字(基于NAudio+Whisper+VOSP+Websocket) (gitee.com)

1、声音录制

这里有三点需要注意的:

1)sampleRate(采样频率)要选择16000,不要选别的,不然Whisper不兼容。

2)声音录制得到的数据是一个个块(block),每次block大概1500byte左右。

3)WAV文件由文件头(共计45个字节)+ 长度标志+Block组+文件尾(大概6个字节)组成,可以直接看NAudio获得相关信息。

2、Whisper使用

也有几点需要注意:

1)不翻墙很难从huggingface.co下载语音模型,可以从Index of / (ggerganov.com)下载

2)需要Net8 的环境,低版本包括NetFramework会卡在ProcessAsync方法上,当然可以换成Process方法

3)处理100个声音块(Block),大概需要3~5秒时间,并不能做到给一段语音就解释这段语音,存在明显的处理性能要求,建议选择好电脑去跑。当然我这边没有从GPU等因素去眼睛了。

4)Whisper的语言包有点怪,感觉是从外国电影翻译学习的,会出现大莫名其妙的的结果,但好在不多,可以根据关键字过滤,比如它会误判存在笑,返回结果为"(笑)"。

5)存在繁体中文的情况,可以采用ChineseConverter方法进行处理。

3、VOSP

Whisper可以的系统初始化时间相对还是可以接受的,在5~10秒左右。而VOSP初始化加载模型需要30~50秒,而且初步测试准确率很低,文字中存在空格。

4、实时语音流程

需要分配多个线程,1一个线程听声音,1个线程解释翻译声音。不能把这两个线程合在一起,原因是翻译声音需要高的计算量。

最后,代码已经上传到git,大家可以直接看,也可以参与编写,AudioWhisper: 实时语音转文字(基于NAudio+Whisper+VOSP+Websocket) (gitee.com)

相关推荐
engchina4 天前
vLLM 部署 openai whisper 模型实现语音转文字
人工智能·python·whisper
gs801405 天前
Faster-Whisper —— 为语音识别加速的利器
人工智能·whisper·语音识别
charles_vaez10 天前
开源模型应用落地-语音转文本-whisper模型-AIGC应用探索(五)
深度学习·whisper·aigc
Mark White21 天前
开箱即用的whisper-service服务
whisper
Python数据分析与机器学习1 个月前
基于fast-whisper模型的语音识别工具的设计与实现
大数据·人工智能·python·搜索引擎·whisper·语音识别·课程设计
不喝可乐_1 个月前
在win11 中 whisper-large-v3-turbo 的简单使用
whisper
毛毛的毛毛2 个月前
如何使用OPENAI的Whisper功能进行音频字母提取功能
whisper
Secede.2 个月前
Whisper+T5-translate实现python实时语音翻译
开发语言·python·whisper
烤鸭的世界我们不懂2 个月前
Python + WhisperX:解锁语音识别的高效新姿势
python·whisper·语音识别
落杉丶2 个月前
[ASR]faster-whisper报错Could not locate cudnn_ops64_9.dll
python·whisper