从信号到文字:语音识别(ASR)技术链路解析自动语音识别(ASR)系统的核心任务,是将一段语音信号 X X X 转换为最可能的文本序列 Y Y Y。 Y ^ = arg max Y P ( Y ∣ X ) \hat{Y} = \arg\max_{Y} P(Y \mid X) Y^=argYmaxP(Y∣X) 依据贝叶斯公式,该目标可分解并简化为两个核心概率的乘积: Y ^ = arg max Y P ( Y ∣ X ) = arg max Y P ( X ∣ Y ) P ( Y ) P ( X ) = arg max