通话语音质检

记录训练呼叫中心专有ASR模型过程之前有做呼叫中心系统的公司找到过我，询问我如何提高语音识别模型在通话录音的转写准确率，我知道市面上开源的模型，一般都是使用通用数据训练的模型，对于电话场景就识别的不怎么准确，特别是通话中一般存储的录音为8k采样率的音频，并且通常有很大部分音频存在很严重的噪音，这也是导致最终识别不准的原因之一。因此，这里使用了大量的通话录音来训练，并且加入了其它更准确的数据集进行训练，有超过200小时的数据集，主要包含弱标注10万条数据，和强标注6万条数据，进行混合训练。关于本文章的更详细内容可点击这里。视频可在浏览器

内网私有化分布式集群部署语音识别接口对于一些金融或者政府机构来说，数据安全十分重要，要求数据只能在内网中传输使用，不能走公网。因此需要一种可以不联网的情况下使用的ASR接口，方便给其它需要语音转写的项目去调用，而不需要调用云ASR接口，从传输层上杜绝了数据泄露风险发生。以及对于一些公司而言没有大量的资金去调用云ASR接口，需要自己组装服务器部署一套自己的ASR接口，减少资金投入。

我是有底线的