音频算法基础(语音识别 / 降噪 / 分离)

秋招抱佛脚之作,大纲由GPT提供,内容由博主本人整理。

日更直到拿到满意的offer为止。

1. 声学与信号基础

采样率、Nyquist 定理 ★★★★★

采样率:

Nyquist定理:

短时傅里叶变换(STFT/ISTFT) ★★★★★

短时傅里叶变换:由于自然中的音频信号为在时间上连续的波形,为了便于处理,需要将其通过傅里叶变换得到离散的信号。

Mel 频率与 Mel 滤波器组 ★★★★★

MFCC(梅尔倒谱系数)、CQT(常Q变换) ★★★★★

窗函数(Hann、Hamming)与 N_FFT、Hop Length 参数含义 ★★★★★

2. 语音识别(ASR)

CTC 原理(对齐、空白符、Beam Search) ★★★★★

Attention-CTC 混合模型 ★★★★☆

Transducer(RNN-T)结构 ★★★★☆

Whisper 模型(大规模多语言语音识别) ★★★★☆

VAD(语音活动检测)与流式识别 ★★★★★

3. 音频增强与降噪

传统方法:谱减法、Wiener 滤波 ★★★☆☆

深度方法:Conv-TasNet、Demucs、DCCRN、SEGAN ★★★★☆

自监督降噪方法(Noisy Student、Noise2Noise) ★★★☆☆

多通道阵列与波束形成(Beamforming) ★★★☆☆

4. 声源分离与多模态

盲源分离(ICA) ★★★☆☆

音视频联合建模(Lip reading, AV-Hubert) ★★★☆☆

多模态对齐(早融合、后融合、联合嵌入) ★★★☆☆

5. 评价指标与应用

  • PESQ(感知语音质量)、STOI(可懂度指标)、SNR ★★★★★

  • WER(字错误率)、CER(字符错误率) ★★★★★

  • 端到端与模块化系统的优缺点对比 ★★★☆☆

相关推荐
晚霞的不甘30 分钟前
CANN 编译器深度解析:UB、L1 与 Global Memory 的协同调度机制
java·后端·spring·架构·音视频
CoderCodingNo1 小时前
【GESP】C++五级练习题 luogu-P1865 A % B Problem
开发语言·c++·算法
大闲在人1 小时前
7. 供应链与制造过程术语:“周期时间”
算法·供应链管理·智能制造·工业工程
小熳芋1 小时前
443. 压缩字符串-python-双指针
算法
Charlie_lll1 小时前
力扣解题-移动零
后端·算法·leetcode
chaser&upper1 小时前
矩阵革命:在 AtomGit 解码 CANN ops-nn 如何构建 AIGC 的“线性基石”
程序人生·算法
lili-felicity1 小时前
CANN加速Whisper语音识别推理:流式处理与实时转录优化
人工智能·whisper·语音识别
weixin_499771551 小时前
C++中的组合模式
开发语言·c++·算法
美狐美颜SDK开放平台2 小时前
多终端适配下的人脸美型方案:美颜SDK工程开发实践分享
人工智能·音视频·美颜sdk·直播美颜sdk·视频美颜sdk
iAkuya2 小时前
(leetcode)力扣100 62N皇后问题 (普通回溯(使用set存储),位运算回溯)
算法·leetcode·职场和发展