听一听语音助手的声音

天飓2024-10-23 16:15

分享自制树莓派语音助手的博文也有一些日子了，今天咱们来听听语音助手自己的声音。

上图是本次对话的log记录，从图上可以看到，主要的对话耗时是用于录音（默认5秒）和语音识别（平均5秒）这两个组件上。

就像在博文《sherpa-ncnn 语言模型简单对比_sherpa-ncnn-streaming-zipformer-bilingual-zh-en-CSDN博客》所列，目前我用的sherpa-ncnn的中文模型的size是small，但在我的这块18年买的树莓派上，其识别的耗时依旧还要4-5秒（官网演示材料显示的耗时是0.8秒）。我的期望值是降到1-2秒左右。如果有知道怎么提升这个识别速度的朋友，还请不吝告知。

除了语音识别耗时外，听录音的时候，你还会发现，espeak的发声的确会非常机械。当然，当它在念出一长串功能名的时候，我竟然还有一种听相声报菜单的赶脚。本来是想借上周重装系统的机会把TTS也换一下，依旧还是树莓派系统原因，相应的高版本的tensorflow、torch等我都装不了，也就只能继续用espeak将就了。

好了，废话就写这么多了。最后奉上完整的音频连接。

《语音助手的自我介绍》