音频算法基础（语音识别 / 降噪 / 分离）

LastWhisperw2025-07-30 12:45

秋招抱佛脚之作，大纲由GPT提供，内容由博主本人整理。

日更直到拿到满意的offer为止。

1. 声学与信号基础

采样率、Nyquist 定理 `★★★★★`

采样率：

Nyquist定理：

短时傅里叶变换（STFT/ISTFT） `★★★★★`

短时傅里叶变换：由于自然中的音频信号为在时间上连续的波形，为了便于处理，需要将其通过傅里叶变换得到离散的信号。

Mel 频率与 Mel 滤波器组 `★★★★★`

MFCC（梅尔倒谱系数）、CQT（常Q变换） `★★★★★`

窗函数（Hann、Hamming）与 N_FFT、Hop Length 参数含义 `★★★★★`

2. 语音识别（ASR）

CTC 原理（对齐、空白符、Beam Search） `★★★★★`

Attention-CTC 混合模型 `★★★★☆`

Transducer（RNN-T）结构 `★★★★☆`

Whisper 模型（大规模多语言语音识别） `★★★★☆`

VAD（语音活动检测）与流式识别 `★★★★★`

3. 音频增强与降噪

传统方法：谱减法、Wiener 滤波 `★★★☆☆`

深度方法：Conv-TasNet、Demucs、DCCRN、SEGAN `★★★★☆`

自监督降噪方法（Noisy Student、Noise2Noise） `★★★☆☆`

多通道阵列与波束形成（Beamforming） `★★★☆☆`

4. 声源分离与多模态

盲源分离（ICA） `★★★☆☆`

音视频联合建模（Lip reading, AV-Hubert） `★★★☆☆`

多模态对齐（早融合、后融合、联合嵌入） `★★★☆☆`

5. 评价指标与应用

PESQ（感知语音质量）、STOI（可懂度指标）、SNR ★★★★★
WER（字错误率）、CER（字符错误率） ★★★★★
端到端与模块化系统的优缺点对比 ★★★☆☆

音频算法基础（语音识别 / 降噪 / 分离）

1. 声学与信号基础

采样率、Nyquist 定理 ★★★★★

短时傅里叶变换（STFT/ISTFT） ★★★★★

Mel 频率与 Mel 滤波器组 ★★★★★

MFCC（梅尔倒谱系数）、CQT（常Q变换） ★★★★★

窗函数（Hann、Hamming）与 N_FFT、Hop Length 参数含义 ★★★★★

2. 语音识别（ASR）

CTC 原理（对齐、空白符、Beam Search） ★★★★★

Attention-CTC 混合模型 ★★★★☆

Transducer（RNN-T）结构 ★★★★☆

Whisper 模型（大规模多语言语音识别） ★★★★☆

VAD（语音活动检测）与流式识别 ★★★★★

3. 音频增强与降噪

传统方法：谱减法、Wiener 滤波 ★★★☆☆

深度方法：Conv-TasNet、Demucs、DCCRN、SEGAN ★★★★☆

自监督降噪方法（Noisy Student、Noise2Noise） ★★★☆☆

多通道阵列与波束形成（Beamforming） ★★★☆☆

4. 声源分离与多模态

盲源分离（ICA） ★★★☆☆

音视频联合建模（Lip reading, AV-Hubert） ★★★☆☆

多模态对齐（早融合、后融合、联合嵌入） ★★★☆☆

5. 评价指标与应用

采样率、Nyquist 定理 `★★★★★`

短时傅里叶变换（STFT/ISTFT） `★★★★★`

Mel 频率与 Mel 滤波器组 `★★★★★`

MFCC（梅尔倒谱系数）、CQT（常Q变换） `★★★★★`

窗函数（Hann、Hamming）与 N_FFT、Hop Length 参数含义 `★★★★★`

CTC 原理（对齐、空白符、Beam Search） `★★★★★`

Attention-CTC 混合模型 `★★★★☆`

Transducer（RNN-T）结构 `★★★★☆`

Whisper 模型（大规模多语言语音识别） `★★★★☆`

VAD（语音活动检测）与流式识别 `★★★★★`

传统方法：谱减法、Wiener 滤波 `★★★☆☆`

深度方法：Conv-TasNet、Demucs、DCCRN、SEGAN `★★★★☆`

自监督降噪方法（Noisy Student、Noise2Noise） `★★★☆☆`

多通道阵列与波束形成（Beamforming） `★★★☆☆`

盲源分离（ICA） `★★★☆☆`

音视频联合建模（Lip reading, AV-Hubert） `★★★☆☆`

多模态对齐（早融合、后融合、联合嵌入） `★★★☆☆`