记录训练呼叫中心专有ASR模型过程之前有做呼叫中心系统的公司找到过我,询问我如何提高语音识别模型在通话录音的转写准确率,我知道市面上开源的模型,一般都是使用通用数据训练的模型,对于电话场景就识别的不怎么准确,特别是通话中一般存储的录音为8k采样率的音频,并且通常有很大部分音频存在很严重的噪音,这也是导致最终识别不准的原因之一。因此,这里使用了大量的通话录音来训练,并且加入了其它更准确的数据集进行训练,有超过200小时的数据集,主要包含弱标注10万条数据,和强标注6万条数据,进行混合训练。 关于本文章的更详细内容可点击这里。 视频可在浏览器