市场有很多语音库,这里介绍Vosk SDK
除了支持untiy外还有原生开发服务器等
目录
- 安装unity示例demo
- 下载语音训练文件
- 运行demo
- 结尾
- 一键三联
注意事项
- 有可能debug出来的文本是空的,(确保麦克风正常,且索引正确)
- 分大模型和小模型,小模型给移动端用,大模型给pc端用,小模型识别速度快,但大模型准
安装unity示例demo
自己clone库,unity版本我选的2022.3.42f1c1
https://github.com/alphacep/vosk-unity-asr
下载语音训练文件
小模型42M
https://alphacephei.com/vosk/models/vosk-model-small-cn-0.22.zip
大模型1.3G
https://alphacephei.com/vosk/models/vosk-model-cn-0.22.zip
注意要是下载网速慢,可使用梯子

下载完毕后,将文件copy到工程的StreamingAssets

运行Demo
设置麦克风索引
这里我打印了麦克风信息列表
识别结果已经在Log上了



结尾
有一定的错误率,但只要你说普通话,吐字清晰,基本上很准
这里是根据麦克风实时输入并转成文本。
理论上也可以把MP3 wav等转成文本
或者根据自己的业务需求,做出点击麦克风开始录制,点击结束,再进行识别
一键三联
点赞·留言·收藏
如果可以帮到你,好用的话,记得一键三连。
毕竟博主写文章是靠爱发电,所以爱会消失对不对。