SEW-D:语音识别中无监督预训练的性能与效率权衡温馨提示: 本篇文章已同步至"AI专题精讲" SEW-D:语音识别中无监督预训练的性能与效率权衡本文研究了自动语音识别(ASR)中预训练模型的性能与效率权衡。我们聚焦于wav2vec 2.0,并形式化了几种影响模型性能和效率的架构设计。通过整合我们的所有观察,我们提出了SEW(Squeezed and Efficient Wav2vec),一种在性能和效率两个维度上均有显著改进的预训练模型架构,适用于多种训练设置。例如,在LibriSpeech的100小时-960小时半监督设置下,SEW与wav2vec