音频筑基：入门50问

来知晓2024-07-13 7:07

音频筑基：入门50问

- 通用类
- 编解码类

只问不答，意在启发。

通用类

为什么音频信号分析要从时域到频域？
频域变换中，为啥要做TDAC时域混叠消除？
人耳听觉频域敏感区是哪部分，为什么？
人声发声频域重要区域是哪部分及为什么？
乐声、人声常见频率段为？
人耳听觉频段高频、中频、低频通常范围是指？
什么是窗函数，为什么要加窗函数？
为什么要用傅里叶变换？
为什么会从DFT到FFT？
为什么频域编解码多用DCT或MDCT？
梅尔谱和梅尔倒谱系数MFCC啥关系?
梅尔谱系数(MFCC)和巴克谱系数(BFCC)的区别是？
音频技术中，单词voice和speech有何分别？
语音序列中通常含有哪些信息？提示：情绪、病理、说话人特征
音频里的3A和图像里的3A分别是指？
PCM量化中，ulaw和alaw的区别是？
音频中bit位深大于24位以上，意义是啥？
什么是互调失真IMD？
音频信号中过零率有啥物理含义表征？有啥主观感受，如何感性理解？
听音评测中，羊耳和亚耳有啥区别？
信噪比计算公式是？
上采样下采样是啥？
上混下混是啥？
什么是总谐波失真+噪声（THD+N）？

编解码类

英文codec单词的来历是？
编解码分类有哪些？
常见语音编解码架构是什么？
编解码核心技术模块有哪些？为什么？
如果你入手，第一个想研究什么？
你对当前项目的认识有哪些？从进展、难点、重点多方面分析
频域编解码的核心问题是什么？
当前编解码的问题在哪儿？
哪种范数适用于音频编解码里的损失评估？
为啥编解码器中通常只标准化解码器，不标准化编码器？
语音编解码和音乐编解码的本质区别有哪些？
什么是预回声？
预加重滤波的目的是啥？
斜滤波器处理原因为何？

部分问题参考：

什么是窗函数？为啥要加窗函数？https://zhuanlan.zhihu.com/p/24318554

上一篇：React@16.x（55）Redux@4.x（4）- store

下一篇：阿里通义音频生成大模型 FunAudioLLM 开源

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06AI科技热点日报 | 2026年07月01日 07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 10【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……