音频算法基础(语音识别 / 降噪 / 分离)

秋招抱佛脚之作,大纲由GPT提供,内容由博主本人整理。

日更直到拿到满意的offer为止。

1. 声学与信号基础

采样率、Nyquist 定理 ★★★★★

采样率:

Nyquist定理:

短时傅里叶变换(STFT/ISTFT) ★★★★★

短时傅里叶变换:由于自然中的音频信号为在时间上连续的波形,为了便于处理,需要将其通过傅里叶变换得到离散的信号。

Mel 频率与 Mel 滤波器组 ★★★★★

MFCC(梅尔倒谱系数)、CQT(常Q变换) ★★★★★

窗函数(Hann、Hamming)与 N_FFT、Hop Length 参数含义 ★★★★★

2. 语音识别(ASR)

CTC 原理(对齐、空白符、Beam Search) ★★★★★

Attention-CTC 混合模型 ★★★★☆

Transducer(RNN-T)结构 ★★★★☆

Whisper 模型(大规模多语言语音识别) ★★★★☆

VAD(语音活动检测)与流式识别 ★★★★★

3. 音频增强与降噪

传统方法:谱减法、Wiener 滤波 ★★★☆☆

深度方法:Conv-TasNet、Demucs、DCCRN、SEGAN ★★★★☆

自监督降噪方法(Noisy Student、Noise2Noise) ★★★☆☆

多通道阵列与波束形成(Beamforming) ★★★☆☆

4. 声源分离与多模态

盲源分离(ICA) ★★★☆☆

音视频联合建模(Lip reading, AV-Hubert) ★★★☆☆

多模态对齐(早融合、后融合、联合嵌入) ★★★☆☆

5. 评价指标与应用

  • PESQ(感知语音质量)、STOI(可懂度指标)、SNR ★★★★★

  • WER(字错误率)、CER(字符错误率) ★★★★★

  • 端到端与模块化系统的优缺点对比 ★★★☆☆

相关推荐
第二只羽毛4 分钟前
遵守robots协议的友好爬虫
大数据·爬虫·python·算法·网络爬虫
艾斯比的日常23 分钟前
Java 三色标记算法:并发垃圾回收的核心技术解析
java·开发语言·算法
CoovallyAIHub33 分钟前
抛弃LLM!MIT用纯视觉方法破解ARC难题,性能接近人类水平
深度学习·算法·计算机视觉
程序猿编码38 分钟前
PRINCE算法的密码生成器:原理与设计思路(C/C++代码实现)
c语言·网络·c++·算法·安全·prince
高洁011 小时前
具身智能-视觉语言导航(VLN)
深度学习·算法·aigc·transformer·知识图谱
Croa-vo1 小时前
TikTok 数据工程师三轮 VO 超详细面经:技术深挖 + 建模推导 + 压力测试全记录
javascript·数据结构·经验分享·算法·面试
蘑菇小白1 小时前
时间复杂度
数据结构·算法
czlczl200209251 小时前
算法:组合问题
算法·leetcode·职场和发展
CoderYanger1 小时前
优选算法-字符串:63.二进制求和
java·开发语言·算法·leetcode·职场和发展·1024程序员节
Cx330❀2 小时前
C++ STL set 完全指南:从基础用法到实战技巧
开发语言·数据结构·c++·算法·leetcode·面试