STT语音转文字探秘

语音转文字（STT）核心结论总结

STT 的核心是 「声学特征→文字序列」的概率推理 ，目标是理解自然语音的语义内容，和通信行业 "固定声波 - 符号字典" 有本质区别：

音频预处理：标准化声学输入
- 核心操作：16kHz 采样量化 → 降噪滤波 → 20~30ms 分帧加窗；
- 目的：把模拟声波转为离散数字帧，过滤环境噪音，生成模型可处理的声学数据。
声学特征提取：提取语音的 "声学指纹"
- 核心特征：MFCC（梅尔频率倒谱系数） 或 FBank（滤波器组特征）；
- 原理：模拟人耳对频率的敏感度，将音频频谱转化为低维特征向量，保留 "能区分不同字" 的关键信息。
核心识别：全局概率最优解推理 这是 STT 最关键的一步，完全区别于固定字典：
- 双模型协作 ：① 声学模型（AM） ：计算 "这段声学特征对应某个字 / 音素" 的概率（如 "běi" 对应 "北" 的概率 80%，对应 "杯" 的概率 15%）；② 语言模型（LM）：计算 "某个文字组合在自然语言中合理" 的概率（如 "北京" 概率 0.9，"杯京" 概率 0.001）；
- 解码算法 ：用 维特比算法 计算所有候选文字组合的「声学概率 × 语言概率」总和，选出全局得分最高的组合；
- 关键逻辑：不是逐字判断，而是 "整句海选 + 概率投票"，从根源解决同音不同字歧义。
后处理：优化文本可读性
- 核心操作：去重（解决 CTC 模型重复输出）→ 标点断句 → 口音适配；
- 目的：把模型输出的原始文字序列，转化为符合自然语言习惯的最终文本。

STT 核心痛点	针对性解决方案
同音不同字歧义（如 "北惊"→"北京"）	语言模型结合上下文约束 + 场景词典优化
音频帧与文字不对齐	CTC 模型 / Transformer 注意力机制动态对齐
噪音 / 口音干扰识别	预处理降噪 + 口音数据集增强模型训练
长文本识别准确率下降	Transformer 全局上下文建模 + 分段解码