音频相关基础知识

主要参考：

音频基本概念_音频和音调的关系-CSDN博客

音频相关基础知识（采样率、位深度、通道数、PCM、AAC）_音频2通道和8ch的区别-CSDN博客

概述

声音的本质

声音的本质是波在介质中的传播现象，声波的本质是一种波，是一种物理量。两者不一样，声音是一种抽象的，是声波的传播现象，声波是物理量。

声音的三要素

响度(loudness)：人主观上感觉声音的大小（俗称音量），由"振幅"（amplitude）和人离声源的距离决定，振幅越大响度越大，人和声源的距离越小，响度越大。

音调(pitch)：声音的高低（高音、低音），由频率决定，频率越高音调越高（频率单位Hz，赫兹），人耳听觉范围20～20000Hz。20Hz以下称为次声波，20000Hz以上称为超声波）。

音色(Timbre)：波形决定了声音的音调。由于不同对象材料的特点，声音具有不同的特性，音色本身就是抽象的东西，但波形就是把这种抽象和直观的性能。波形因音调而异，不同的音调可以通过波形来区分。

下图为音量与音调关系：

音频相关参数

接下来看看音频相关参数

音频采样率

音频采样率

音频采样率_百度百科 (baidu.com)

其实就是采集音频数据过程中所使用的ADC采样的频率。

声波其实是一种机械波，因此也有波长和振幅的特征，波长对应于时间轴线，振幅对应于采样值轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。采样的过程就是抽取某点的采样值，很显然，在单位时间中内抽取的点越多，获取得波长信息更丰富，为了复原波形，一个周期中，必须有至少2个点的采样。人耳能够感觉到的最低波长为1.7cm，即20000Hz，因此如果要全范围内满足人耳的听觉要求，则1s采样至少40000次，用40000Hz(40kHz)表达，这个40kHz就是采样率，这样才能将人耳所能听到的声音全部记录下来。我们常见的CD，采样率为44.1kHz（并没有取40kHz整数，可能跟晶振的制作工艺等相关，就跟时钟晶振32.768kHz类似）。

在数字音频领域，常用的采样率有：

8,000 Hz - 电话所用采样率, 对于人的说话已经足够

11,025 Hz-AM调幅广播所用采样率

22,050 Hz和24,000 Hz- FM调频广播所用采样率

32,000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率

44,100 Hz - 音频 CD, 也常用于 MPEG-1 音频（VCD, SVCD, MP3）所用采样率

47,250 Hz - 商用 PCM 录音机所用采样率

48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率

50,000 Hz - 商用数字录音机所用采样率

96,000 或者 192,000 Hz - DVD-Audio、一些 LPCM DVD 音轨、BD-ROM（蓝光盘）音轨、和 HD-DVD （高清晰度 DVD）音轨所用所用采样率

2.8224 MHz - Direct Stream Digital 的 1 位 sigma-delta modulation 过程所用采样率。
人正常说话的声音一般频率在什么范围？

人正常说话的声音频率范围主要集中在 85 Hz ~ 255 Hz（基频） ，但语音的完整频率范围（包括谐波和辅音）通常覆盖 80 Hz ~ 8 kHz。具体分布如下：

基频（F0，决定音调）

男性：通常 85 Hz ~ 180 Hz（平均约 120 Hz）。

女性：通常 165 Hz ~ 255 Hz（平均约 220 Hz）。

儿童：可能高达 300 Hz 以上。

注：基频是声带振动产生的低频成分，决定声音的"低沉"或"尖锐"。

语音的完整频率范围（含谐波和辅音）

虽然基频较低，但语音的清晰度依赖于更高频率的谐波和辅音能量分布：

元音（Vowels） ：能量集中在 100 Hz ~ 1 kHz（如"a"、"o"等）。

辅音（Consonants） ：高频成分可达 2 kHz ~ 8 kHz（如"s"、"f"等清辅音）。

例如："s"音的频率可高达 6 kHz ~ 8 kHz，对语音清晰度至关重要。

语音通信系统的频带设计

基于人声频率特性，常见通信系统会压缩频带以节省带宽：

电话语音 ：300 Hz ~ 3.4 kHz（牺牲部分高频辅音，但仍可保真基本语音）。

广播/会议系统 ：80 Hz ~ 8 kHz（更高保真度）。

语音识别（ASR） ：通常分析 50 Hz ~ 4 kHz 的频段。

关键影响因素

音调变化：情绪激动时基频可能升高（如尖叫可达 1 kHz 以上）。

环境噪声：高频辅音（如"s""t"）易被噪声掩盖，需增强处理。

设备限制：麦克风或扬声器频响范围不足（如仅 100 Hz ~ 4 kHz）会导致声音"发闷"或"不清晰"。

实验数据参考

|--------|-----------------|--------------------|
| 语音成分 | 频率范围 | 作用 |
| 基频（F0） | 85 Hz ~ 255 Hz | 决定音调（男/女/儿童差异） |
| 元音 | 100 Hz ~ 1 kHz | 提供声音响度和饱满度 |
| 清辅音 | 2 kHz ~ 8 kHz | 影响清晰度（如"s""f""th"） |

总结

日常对话 ：重点关注 100 Hz ~ 4 kHz，这是可懂度的核心频段。

高质量音频 ：需保留 80 Hz ~ 8 kHz 以还原自然度。

语音处理 ：降噪或增强时需特别注意保护 2 kHz ~ 4 kHz 的高频辅音部分。

如果需要测量具体人的语音频率，可使用频谱分析工具（如 Audacity、Praat）。
音乐的频率范围详解

音乐是由不同乐器和人声组成的复杂声学信号，其频率范围远宽于人声。不同类型的音乐、乐器及音效覆盖的频段各不相同，以下是详细的分类和分析：

音乐的整体频率范围

|-----|------------------|-------------------------|---------------|
| 频段 | 频率范围 | 主要成分 | 听觉感受 |
| 超低频 | 20 Hz ~ 60 Hz | 低音鼓（Kick）、管风琴、电子低音 | 震撼感，身体可感知振动 |
| 低频 | 60 Hz ~ 250 Hz | 贝斯（Bass）、大提琴、低音吉他 | 浑厚、温暖 |
| 中低频 | 250 Hz ~ 500 Hz | 男声、钢琴低音区、小号 | 饱满、有力度 |
| 中频 | 500 Hz ~ 2 kHz | 人声（主唱）、吉他、小提琴中音区 | 清晰、明亮（核心频段） |
| 中高频 | 2 kHz ~ 5 kHz | 镲片（Cymbals）、女声高音、钢琴高音 | 穿透力强，增强细节 |
| 高频 | 5 kHz ~ 12 kHz | 小提琴泛音、三角铁、齿音（Sibilance） | 清脆、空气感 |
| 极高频 | 12 kHz ~ 20 kHz | 钹（Hi-hat）、录音室混响、电子音效 | 空灵感，但易被年龄大者忽略 |

注：人耳可听范围一般为 20 Hz ~ 20 kHz，但成年人高频听力会衰退（如 40 岁以上可能听不到 15 kHz 以上）。

不同乐器的频率分布

|--------|-------------------------------------------------------------------|----------------------------------------|
| 乐器/音源 | 主要频率范围 | 关键频段 |
| 人声（歌唱） | 80 Hz ~ 1.2 kHz（基频）谐波可达 8 kHz | 男声：100 Hz ~ 400 Hz 女声：200 Hz ~ 1 kHz |
| 钢琴 | 27.5 Hz (A0) ~ 4.2 kHz (C8) | 低音区：< 200 Hz 高音区：> 2 kHz |
| 电吉他 | 80 Hz ~ 1.2 kHz（基频）失真音色可达 5 kHz | 核心频段：200 Hz ~ 2.5 kHz |
| 鼓组 | Kick：60 Hz ~ 100 Hz Snare：150 Hz ~ 5 kHz Hi-hat：2 kHz ~ 12 kHz | 低频冲击力 + 高频瞬态 |
| 小提琴 | 196 Hz (G3) ~ 3.1 kHz (A7) 泛音可达 12 kHz | 中高频表现力强（2 kHz ~ 8 kHz） |
| 电子合成音 | 全频段（20 Hz ~ 20 kHz） | 取决于合成器设计（如Sub Bass或Glitch音效） |

音乐制作与音频设备的频响要求

(1) 录音与混音

全频段覆盖 ：专业录音设备需支持 20 Hz ~ 20 kHz（如电容麦克风、监听音箱）。

关键调整频段：

50 Hz 以下：超低频可能需削减（避免浑浊）。

200 Hz ~ 500 Hz：控制"闷响"（Muddy）。

3 kHz ~ 5 kHz：提升人声/乐器清晰度。

10 kHz 以上：增加"空气感"（但过量会刺耳）。

(2) 播放设备

|-------|------------------|-------------|
| 设备类型 | 有效频响范围 | 局限性 |
| 高端耳机 | 5 Hz ~ 40 kHz | 超高频可能超出人耳感知 |
| 普通音箱 | 60 Hz ~ 18 kHz | 低频下潜不足，高频衰减 |
| 手机扬声器 | 300 Hz ~ 15 kHz | 几乎无低频，中高频突出 |
| 黑胶唱片 | 20 Hz ~ 20 kHz | 超低频可能引起唱针跳轨 |

不同音乐风格的频率特点

|-------|------------------|----------------------|
| 音乐类型 | 核心频段 | 特征 |
| 古典乐 | 40 Hz ~ 18 kHz | 动态范围大，乐器频段均衡 |
| 摇滚/金属 | 80 Hz ~ 5 kHz | 强低频（贝斯/鼓）+ 高能量中频 |
| 电子音乐 | 30 Hz ~ 16 kHz | 超低频（Sub Bass）+ 极高频特效 |
| 爵士乐 | 100 Hz ~ 12 kHz | 中频温暖（萨克斯、钢琴） |
| 流行音乐 | 60 Hz ~ 10 kHz | 突出人声（1 kHz ~ 4 kHz） |

常见问题

Q1：为什么有些音乐听起来"闷"？

原因：中低频（200 Hz ~ 500 Hz）过多，或高频（> 5 kHz）不足。

解决：EQ 削减 250 Hz，提升 3 kHz ~ 8 kHz。

Q2：如何增强音乐的"空间感"？

方法：在 12 kHz 以上小幅提升，或添加混响（Reverb）。

Q3：MP3 压缩会损失哪些频率？

损失频段：优先压缩 > 16 kHz 的极高频和 < 50 Hz 的超低频（因人类对这些频段敏感度较低）。

总结

音乐完整频率范围 ：20 Hz ~ 20 kHz，但不同乐器和风格侧重不同频段。

关键频段：

低频（< 250 Hz）：奠定节奏和氛围。

中频（500 Hz ~ 2 kHz）：决定清晰度和主体感。

高频（> 5 kHz）：增加细节和临场感。

设备选择：根据音乐类型匹配频响范围（如电子音乐需强低频，古典乐需宽频带）。

如果需要分析具体音乐的频谱，可使用工具如 Adobe Audition、SPAN（VST插件）或 Audacity。

可见，音乐是多种多样的，为了能够满足人耳所能听到的所有声音的范围，音乐的采样率一般至少要40kHz，通常使用的是44.1kHz。
音乐的采样率可以小于40kHz吗？

音乐采样率可以小于40kHz，但需根据音频内容和用途权衡音质和带宽需求。以下是详细分析：

采样率的基础要求（奈奎斯特定理）

奈奎斯特准则 ：采样率（𝑓𝑠fs ）必须 ≥ 2倍信号最高频率 （𝑓maxf max），否则会出现混叠失真（Aliasing）。

例如：若要保留20kHz的高频，采样率至少需 40kHz （实际常用 44.1kHz 或 48kHz）。

人耳听音范围 ：通常为 20Hz~20kHz ，因此理论上 40kHz采样率是下限。

采样率 <40kHz 的适用场景

(1) 语音通信（窄带音频）

电话语音 ：采样率通常为 8kHz （保留 300Hz~3.4kHz 频段），牺牲高频以节省带宽。

对讲机/广播 ：采样率可能低至 6kHz~16kHz，仅保留语音可懂度的核心频段（80Hz~4kHz）。

(2) 低质量音乐或特殊效果

复古音效 ：故意使用低采样率（如 22.05kHz）制造"低保真（Lo-Fi）"效果。

游戏音效 ：非关键背景音可能用 24kHz 采样率以减少资源占用。

(3) 嵌入式设备限制

单片机/传感器 ：存储或算力有限时，可能采用 16kHz~32kHz 采样率（如电子玩具、简单MIDI播放器）。

采样率 <40kHz 的缺点

|--------|---------------------------------------------|
| 问题 | 原因 |
| 高频信息丢失 | 采样率 20kHz 仅能保留 ≤10kHz 的信号，音乐缺失高频细节（如镲片、泛音）。 |
| 音质浑浊 | 低频与中频拥挤，动态范围降低（尤其影响钢琴、吉他等宽频乐器）。 |
| 混叠失真 | 若未严格滤波，高频信号会折叠到可听频段（产生刺耳噪声）。 |

实际应用中的采样率选择

|------------|----------------|--------------|-------------|
| 用途 | 推荐采样率 | 保留频段 | 示例 |
| 专业音乐制作 | 44.1kHz~96kHz | 20Hz~20kHz+ | CD、流媒体高音质 |
| 语音通话（VoIP） | 8kHz~16kHz | 300Hz~4kHz | 微信语音、Zoom会议 |
| 广播/播客 | 24kHz~48kHz | 50Hz~12kHz | FM电台、有声书 |
| 嵌入式音频 | 16kHz~32kHz | 100Hz~8kHz | 电子门铃、报警提示音 |

如何降低采样率而不毁坏音质？

若必须使用 <40kHz 采样率，需遵循以下步骤：

低通滤波（抗混叠）：

先滤除高于 𝑓𝑠/2 fs /2 的频率（如采样率 32kHz 时，滤除 >16kHz 的信号）。

重采样（Resampling）：

用高质量算法（如SoX 或iZotope RX）降低采样率，减少失真。

动态范围压缩：

压缩音频动态范围，避免低频能量掩盖中高频。

常见误区

误区1："采样率越高，音质一定越好。"

事实：高于48kHz的采样率（如192kHz）对人耳无意义，但会增加文件大小。

误区2："8kHz采样率的音乐也能听。"

事实：仅适合语音，音乐会丢失几乎所有高频，听起来像"电话音质"。

结论

可以 <40kHz ，但仅限于语音、低功耗设备或特殊音效。

音乐制作/高音质需求：必须 ≥44.1kHz（CD标准）以保留全频段信息。

关键权衡：采样率越低，带宽/存储需求越小，但音质损失越大。

如果需要优化低采样率音频，建议结合比特深度（如16bit） 和**压缩编码（如MP3 128kbps）**平衡质量与体积。
为什么音乐采样率需要超过48kHz？人耳听不出区别，还有必要吗？

虽然人耳的听音范围通常是 20Hz~20kHz ，理论上 48kHz采样率（奈奎斯特频率24kHz） 已经足够覆盖可听声范围，但专业音频制作仍会使用 96kHz、192kHz 甚至更高采样率，主要原因包括：

抗混叠（Anti-Aliasing）与滤波需求

奈奎斯特限制 ：采样率必须 ≥ 2倍最高频率，但实际ADC（模数转换）过程需要更严格的滤波。

陡峭滤波器的代价：

若采样率=48kHz，需在 20kHz~24kHz 之间急剧滤除高频（避免混叠），这会引入相位失真 和预振铃（Pre-ringing）。

更高采样率（如96kHz） ：允许滤波器在 40kHz~48kHz 范围内平缓衰减，减少音质损失。

✅ 实际受益：更高采样率能降低数字滤波对可听频段（<20kHz）的影响，提升瞬态响应（如鼓声、钢琴的起音更自然）。

高频谐波与超声波的影响

乐器/人声的超声波成分：

许多乐器（如钢琴、小提琴）的泛音可达 30kHz~50kHz ，虽人耳听不见，但可能影响设备处理（如电子管话筒、模拟硬件）。

超声波在数字域混音时可能与可听频段产生互调失真（Intermodulation Distortion），更高采样率可减少这类问题。

✅ 实际受益：专业录音时保留超声波信息，可确保后期处理（如降噪、时间拉伸）更精准。

音频处理与后期制作的灵活性

时间拉伸（Time-Stretching）：

高采样率音频在变速/变调时（如Melodyne、Ableton Warp）能减少"数字颗粒感"。

混响与空间效果：

高采样率提供更精确的延迟计算，改善人工混响的自然度。

降低量化误差：

高采样率结合高比特深度（如24bit/192kHz）可减少数字舍入误差，提升动态范围。

✅ 实际受益：即使最终导出为44.1kHz/48kHz，原始高采样率文件能提供更干净的后期处理结果。

专业音频设备的支持

现代ADC/DAC芯片：

高端音频接口（如Apollo、RME）默认支持 192kHz，硬件设计已优化高采样率性能。

DSD（直接比特流）录音：

SACD采用 2.8MHz~5.6MHz 采样率（1bit），需高采样率PCM转换。

✅ 实际受益：兼容专业工作流程，避免采样率转换带来的质量损失。

争议与科学验证

盲听测试结果：

多数人无法区分 44.1kHz vs. 192kHz 的最终音乐（如《Audio Engineering Society》研究）。

但录音工程师能感知 处理阶段 的差异（如插件运算精度）。

心理声学效应：

部分研究表明，超声波可能间接影响人耳对可听频段的感知（尚无定论）。

⚠️ 注意：消费者无需追求高采样率音乐（如Tidal的192kHz），因回放设备（耳机/音箱）和听音环境限制其优势。

何时需要高采样率？

|---------|----------------|----------------|
| 场景 | 推荐采样率 | 理由 |
| 专业录音/混音 | 96kHz~192kHz | 确保后期处理质量 |
| 电子音乐制作 | 48kHz~96kHz | 高频合成器可能产生超声波 |
| 影视/游戏音效 | 48kHz~192kHz | 时间拉伸/空间效果需求 |
| 最终音乐分发 | 44.1kHz~48kHz | 人耳无法感知更高采样率的差异 |

结论

对人耳直接听感 ：超过48kHz的采样率（如96kHz/192kHz）无显著提升。

对专业音频制作：高采样率能：

改善滤波和抗混叠性能。

提供更灵活的后期处理。

兼容专业设备和工作流程。

对普通用户：44.1kHz/48kHz 完全足够，无需追求高采样率文件（除非原始录音质量极高）。

建议：

音乐制作：录音时用 96kHz ，最终导出 44.1kHz/48kHz。

普通听众：选择 CD质量（44.1kHz/16bit） 或 无损（48kHz/24bit） 即可。

更高的配置其实对普通用户没啥用，但是对专业音频制作人员来说是有用的，可以增加音乐制作的容错度，有更多可选择的余地。

比特深度（位深度）

其实就是采样音频数据时所使用的ADC的位数，位数越高，分辨率越高，采样越精准，但同时占的空间也越大。

位深度表示每个采样点用多少**二进制位数（bits）**存储振幅信息。

音频的位深度（Bit Depth） 决定了数字音频的动态范围 和量化精度，直接影响音质细节和噪声水平。以下是常见的位深度及其应用场景：

位深度的基本概念

定义：位深度表示每个采样点用多少**二进制位数（bits）**存储振幅信息。

动态范围（dB） ：每增加1bit，动态范围提升约 6dB。

计算公式：动态范围=6.02×位深度+1.76动态范围=6.02×位深度+1.76

例如：16bit → 98dB，24bit → 144dB。

常见的位深度类型

|-----------|------------|-------------------|-------------------|
| 位深度 | 动态范围 | 主要用途 | 优缺点 |
| 8bit | ~48dB | 早期游戏音效、电话语音 | 噪声明显，音质粗糙 |
| 16bit | ~98dB | CD音频、流媒体（MP3/AAC） | 平衡音质与文件大小 |
| 24bit | ~144dB | 专业录音、母带制作、高解析音频 | 低噪声，适合后期处理 |
| 32bit（浮点） | ~1528dB* | DAW内部处理、影视后期 | 抗 clipping，超强动态范围 |

注：32bit浮点的动态范围理论值极高（因浮点运算特性），实际有效精度约24bit。

不同位深度的应用场景

(1) 8bit

用途：复古游戏（如FC红白机）、老式语音设备。

特点：

明显的量化噪声（"颗粒感"）。

文件极小，适合低带宽场景。

(2) 16bit（CD标准）

用途：音乐CD、Spotify/Apple Music（非Hi-Res）、广播。

特点：

动态范围（98dB）覆盖大部分音乐需求。

噪声电平约 -96dBFS，人耳在正常音量下难以察觉。

(3) 24bit（专业音频）

用途：录音室原始录制、Hi-Res音频（如FLAC 24bit/96kHz）、影视配乐。

特点：

更低的底噪（-144dBFS），适合大动态音乐（如古典、爵士）。

后期混音时提供更大调整空间（如提升音量不引入噪声）。

(4) 32bit浮点（DAW内部）

用途：数字音频工作站（如Pro Tools、Ableton Live）的工程文件。

特点：

几乎不会 clipping（过载），适合多轨混音。

导出时通常转为24bit或16bit。

如何选择合适的位深度？

|------------|---------------|-----------------------|
| 场景 | 推荐位深度 | 理由 |
| 音乐录制/混音 | 24bit | 保留最大动态范围，方便后期处理 |
| 最终音乐分发（CD） | 16bit | 兼容CD标准，文件更小 |
| 影视/游戏音效 | 24bit或32bit浮点 | 应对复杂动态变化（如爆炸声到耳语） |
| 语音通话 | 16bit（或更低） | 语音动态范围小，8bit~16bit足够 |

常见问题

Q1：24bit音乐比16bit听起来更好吗？

答案：在理想条件下（高端设备、安静环境），24bit可能更细腻，但普通人耳难以区分。差异主要在录音和混音阶段的优势。

Q2：为什么32bit浮点用于DAW？

答案：浮点运算允许信号超过0dBFS（如+15dB）而不 clipping，混音时更灵活。

Q3：MP3的位深度是多少？

答案：MP3是有损压缩格式，实际存储的是频域数据，无直接位深度概念，但解码后通常输出16bit PCM。

总结

16bit：音乐分发的黄金标准（CD、流媒体）。

24bit：专业录音和Hi-Res音频的首选。

32bit浮点：DAW内部处理的终极保障。

8bit：仅限复古或极低带宽场景。

选择位深度时，需权衡音质需求、文件大小和工作流程。对于普通听众，16bit/44.1kHz（CD质量）已足够；专业制作建议全程使用24bit或更高。

声道数

由于音频的采集和播放是可以叠加的，因此，可以同时从多个音频源采集声音，并分别输出到不同的扬声器，故声道数一般表示声音录制时的音源数量或回放时相应的扬声器数量。单声道（Mono）和双声道（Stereo）比较常见，顾名思义，前者的声道数为1，后者为2。

音频的声道数决定了声音的空间分布和沉浸感，不同的声道配置适用于不同的场景（如音乐、电影、游戏等）。以下是常见的声道格式及其应用：

单声道（Mono，1.0声道）

信号通道：1个（所有声音混合到同一通道）。

特点：

无方向感，声音来源听起来在正前方。

文件体积最小，兼容所有播放设备。

典型用途：

早期广播、电话语音、播客（人声为主）。

某些乐器录音（如底鼓、军鼓）。

立体声（Stereo，2.0声道）

信号通道：2个（左 + 右）。

特点：

提供基本的左右声场定位，适合音乐和日常聆听。

通过**声像（Panning）**控制乐器在左右声道的分布。

典型用途：

音乐录制（CD、流媒体平台）。

耳机播放、普通音箱系统。

2.1声道（立体声 + 低音炮）

信号通道：2个主声道（左+右） + 1个低频效果（LFE）通道。

特点：

低音炮（Subwoofer）负责 80Hz以下低频，减轻主音箱负担。

增强低音冲击力，但声场仍为2D（左右）。

典型用途：

家用音响、电脑多媒体音箱。

5.1声道（环绕声）

信号通道：

前置：左、中、右（3个）。

环绕：左后、右后（2个）。

低频：LFE（1个）。

特点：

提供 360° 环绕声场，适合电影和游戏。

中置声道（Center）强化对白人声。

典型用途：

影院杜比（Dolby）音效、家庭影院。

游戏音效（如PS5、Xbox支持）。

7.1声道（增强环绕声）

信号通道 ：在5.1基础上增加 侧环绕左、右（2个），共8个。

特点：

更精准的声源定位，尤其适合大空间。

需要更多扬声器和专业调校。

典型用途：

高端家庭影院、虚拟现实（VR）音效。

3D音频（基于对象的声道）

技术代表：

杜比全景声（Dolby Atmos）

DTS:X

索尼360 Reality Audio

特点：

突破固定声道，通过元数据（Metadata）动态渲染声音位置（包括高度）。

支持扬声器阵列或耳机虚拟化。

典型用途：

影院、游戏（如《使命召唤》）、沉浸式音乐。

其他多声道格式

|------------|-----|--------------|
| 格式 | 声道数 | 应用场景 |
| 4.0（Quad） | 4 | 70年代实验性环绕声 |
| 6.1 | 7 | 在5.1基础上增加后中置 |
| 9.1（Atmos） | 10+ | 顶部扬声器增强空间感 |

如何选择声道数？

|----------------|--------------|--------------|
| 需求 | 推荐声道 | 理由 |
| 语音/播客 | Mono（1.0） | 节省带宽，内容无方向需求 |
| 音乐聆听 | Stereo（2.0） | 兼容所有设备，自然声场 |
| 电影/游戏 | 5.1 或 7.1 | 沉浸式体验 |
| 专业制作（VR/Atmos） | 3D音频（如Atmos） | 动态音效定位 |

常见问题

Q1：立体声和双声道是一回事吗？

答案：是的，但"立体声"强调声场空间感，而"双声道"仅描述通道数量。

Q2：耳机能模拟5.1环绕声吗？

答案：可通过虚拟环绕技术（如Windows Sonic、Dolby Atmos for Headphones）实现，但效果弱于真实多扬声器系统。

Q3：音乐是否需要5.1声道？

答案：大部分音乐为立体声，但少数专辑（如摇滚现场）会发布5.1混音版（如DVD-Audio）。

总结

单声道：兼容性强，适合语音。

立体声：音乐的标准配置。

5.1/7.1：影视和游戏的沉浸式选择。

3D音频：未来趋势，灵活定位声源。

选择声道数时需考虑内容类型、播放设备 和空间大小。普通用户优先选择立体声，影音爱好者可升级至5.1或Atmos系统。

音频码率

音频码率（Bitrate）是指单位时间内音频数据占用的比特数 ，通常以 kbps（千比特每秒） 为单位。它直接影响音频的音质和文件大小，是衡量数字音频效率的核心参数之一。

码率的基本概念

定义：码率 = 每秒存储或传输的音频数据量（比特数）。公式：

码率 (kbps)=采样率 (Hz)×位深度 (bit)×声道数1000码率 (kbps)=1000采样率 (Hz)×位深度 (bit)×声道数

例如：CD音质（44.1kHz/16bit/立体声）的无压缩码率为：

44100×16×21000=1411.2 kbps100044100×16×2=1411.2kbps

关键影响：

码率越高 → 音质越好（细节保留更多），但文件体积越大。

码率越低 → 文件越小，但音质可能下降（高频丢失、压缩失真）。

常见音频码率范围

|--------------|-----------------|--------------------------------------|
| 音频类型 | 码率范围 | 适用场景 |
| 电话语音 | 8~16 kbps | 移动通信（如AMR-NB编码） |
| 网络语音（VoIP） | 24~64 kbps | 微信语音、Zoom会议（Opus编码） |
| 流媒体音乐 | 96~320 kbps | Spotify（Ogg Vorbis）、Apple Music（AAC） |
| CD音质（无损） | 1411 kbps | 未压缩的WAV/AIFF文件 |
| 高清音频（Hi-Res） | 2000~9000 kbps | 24bit/96kHz FLAC或DSD文件 |

更多待补充。

PCM

主要参考：

音频处理------详解PCM数据格式_pcm格式-CSDN博客

音频处理------音频处理的基本概念_1000hz音频采集-CSDN博客

音频处理------音频编码原理简介-CSDN博客

PCM这个概念在多种场合都可能被用到。

首先，PCM是一种技术方法。

PCM（Pulse Code Modulation）脉冲编码调制是数字通信的编码方式之一，作用是将模拟信号转换为数字信号。在PCM 过程中，将输入的模拟信号进行采样、量化和编码，用二进制进行编码的数来代表模拟信号的幅度。其实就是ADC的一种实现原理。

ADC的核心工作原理本质上是PCM（脉冲编码调制）技术的实现，但具体实现方式可能因ADC类型和应用场景有所不同。

ADC与PCM的关系

(1) PCM是ADC的理论基础

PCM（脉冲编码调制）是模拟信号数字化的通用方法，包含三个关键步骤：

采样（Sampling）：按固定时间间隔采集模拟信号值。

量化（Quantization）：将采样值转为离散数字（如16bit）。

编码（Encoding）：将数字值转换为二进制格式。

ADC的核心功能 正是完成这一过程，因此可以说 ADC是PCM的硬件实现。

(2) ADC的输出本质是PCM数据

ADC输出的原始数据是 未压缩的数字信号序列，符合PCM的定义。

但ADC的输出格式可能需要调整（如并行转串行）才能匹配标准PCM接口（如I2S）。

不同类型ADC的PCM特性

(1) 音频专用ADC（直接输出PCM）

示例芯片：WM8960、CS5368、AK5552。

特点：

直接输出标准PCM格式（如I2S/TDM接口）。

内置抗混叠滤波器和采样率控制器，优化音频信号。

(2) 通用ADC（需后处理为PCM）

示例：SAR ADC（逐次逼近型）、ΔΣ ADC（Sigma-Delta）。

特点：

输出可能是并行数据或非标准格式（如12bit、18bit）。

需通过软件或硬件（如FPGA）转换为标准PCM（如16bit/44.1kHz）。

(3) 压缩型ADC（非纯PCM）

示例：蓝牙芯片的ADC（如Qualcomm CSR8675）。

特点：

内置DSP，ADC输出后直接压缩为SBC/AAC格式，跳过标准PCM阶段。

因为PCM在音频数据里体现得最广泛最明显，所以，音频数据通常都会跟PCM挂钩。

常见问题

Q1：所有ADC都用PCM吗？

答案：绝大多数ADC基于PCM原理，但：

DSD ADC输出1bit高速数据流（非PCM），需后续转换。

压缩ADC（如语音芯片）可能跳过PCM直接输出编码数据。

Q2：为什么音频ADC常用I2S接口？

答案：I2S是专为PCM数据设计的标准串行接口，可高效传输采样率、位深同步的音频数据。

Q3：手机录音的PCM数据如何生成？

流程：麦克风 → 音频ADC（PCM输出） → 处理器 → 存储为WAV或压缩为MP3/AAC。

总结

ADC的核心技术是PCM，但输出形式可能需调整才能匹配标准PCM格式。

音频ADC 通常直接输出PCM（如I2S），通用ADC需后处理。

例外：DSD ADC和压缩型ADC不直接输出PCM。

简单结论：

如果ADC用于音频且输出未压缩数字信号，则它一定使用PCM技术。

非音频ADC（如温度传感器）虽基于PCM原理，但通常不称其输出为"PCM数据"。

由此可见，PCM数据一般都是特指原始音频数据，未经压缩，音质无损但体积大，在这种场景下，PCM特指音频数据。

另外，我们还经常听到PCM接口这个说法。

PCM（Pulse Code Modulation，脉冲编码调制 ）接口是一种用于传输数字化音频信号 的通信协议或硬件接口，广泛应用于音频设备、通信系统和数字信号处理（DSP）领域。它的核心功能是传输未经压缩的数字音频数据流。

PCM 接口的基本概念

PCM 接口传输的是原始音频采样数据，即通过以下参数描述的离散信号：

采样率（Sample Rate）：每秒采集音频信号的次数（如 44.1kHz、48kHz）。

位深度（Bit Depth）：每个采样点的量化精度（如 16bit、24bit）。

声道数（Channels）：单声道（Mono）、立体声（Stereo）或多声道（如 5.1、7.1）。

PCM 数据的特点

未压缩：直接传输量化后的数字信号，音质无损。

低延迟：无需编解码，适合实时音频传输（如录音、通话）。

标准化：几乎所有数字音频设备都支持 PCM 格式。

注意，PCM并不是指某一个接口，而是某一类接口的统称。

PCM（Pulse Code Modulation，脉冲编码调制 ）接口是一种用于传输数字化音频信号 的通信协议或硬件接口，广泛应用于音频设备、通信系统和数字信号处理（DSP）领域。它的核心功能是传输未经压缩的数字音频数据流。

PCM 接口的基本概念

PCM 接口传输的是原始音频采样数据，即通过以下参数描述的离散信号：

采样率（Sample Rate）：每秒采集音频信号的次数（如 44.1kHz、48kHz）。

位深度（Bit Depth）：每个采样点的量化精度（如 16bit、24bit）。

声道数（Channels）：单声道（Mono）、立体声（Stereo）或多声道（如 5.1、7.1）。

PCM 数据的特点

未压缩：直接传输量化后的数字信号，音质无损。

低延迟：无需编解码，适合实时音频传输（如录音、通话）。

标准化：几乎所有数字音频设备都支持 PCM 格式。

PCM 接口的类型

PCM 接口可以通过多种物理或协议形式实现，主要包括：

(1) 硬件接口（常见于音频设备）

|---------------------------------|-------------------------------------------------------|
| 接口类型 | 描述 |
| I2S | 集成电路内置音频总线（Inter-IC Sound），用于芯片间传输 PCM 数据（如 DAC/ADC）。 |
| TDM（Time-Division Multiplexing） | 支持多声道 PCM 传输（如 8 通道音频）。 |
| PCM 同步串口 | 某些 DSP 或编解码芯片的专用接口（如 TI/ADI 芯片）。 |
| S/PDIF（索尼/飞利浦数字接口） | 通过同轴或光纤传输 PCM 数据（家用 Hi-Fi 常见）。 |

(2) 软件/协议接口

音频驱动层（如 ALSA、Core Audio）：操作系统通过 PCM 格式与声卡通信。

网络传输（如 VoIP）：未压缩的 PCM 数据可通过 RTP/UDP 传输（如 G.711 编码）。

PCM 接口的典型应用

(1) 音频设备

ADC/DAC 芯片：将模拟信号转换为 PCM 数据（或反向转换）。

数字音频工作站（DAW）：录音时麦克风信号通过 PCM 接口输入计算机。

Hi-Fi 播放器：解码器通过 I2S 接口将 PCM 数据传输给 DAC 芯片。

(2) 通信系统

电话系统：传统电话使用 8kHz 采样率的 PCM（G.711 编码）。

蓝牙音频（SBC 编码前）：原始音频先以 PCM 格式传输，再压缩为 SBC/AAC。

车载音频：数字功放通过 PCM 接口接收多声道信号。

(3) 计算机音频

声卡与 CPU 通信：操作系统通过 PCM 格式管理音频输入/输出（如 WAV 文件播放）。

PCM vs. 其他音频接口

|------|-------------------|-------------------------|
| 对比项 | PCM 接口 | 其他接口（如 PDM、DSD） |
| 数据格式 | 多比特量化（如 16/24bit） | 1bit 位流（PDM/DSD） |
| 音质 | 无损（原始采样） | 依赖调制方式（DSD 适合高频细节） |
| 延迟 | 低（直接传输） | 可能需转换（如 PDM 转 PCM） |
| 典型应用 | 录音、专业音频、通信 | 高端 Hi-Fi（SACD）、MEMS 麦克风 |

✅ PDM（Pulse Density Modulation）：常见于数字麦克风（如智能手机麦克风），需通过滤波器转换为 PCM。

常见问题

Q1: PCM 和 WAV 的关系？

PCM 是原始音频数据格式，WAV 是 PCM 的封装格式（加文件头）。

例如：CD 音质的 WAV = 44.1kHz/16bit 的 PCM 数据 + WAV 文件头。

Q2: 为什么蓝牙耳机不直接传输 PCM？

PCM 数据量太大（如 44.1kHz/16bit 立体声 ≈ 1.4Mbps），蓝牙带宽不足，需压缩为 SBC/AAC/LDAC。

Q3: PCM 接口需要时钟信号吗？

是的！PCM 依赖同步时钟（BCLK） 和帧同步信号（LRCLK）（如 I2S 接口）。

总结

PCM 接口是数字音频的"通用语言"，传输未经压缩的采样数据。

硬件接口 （如 I2S、TDM）用于芯片级通信，软件接口用于系统级音频处理。

几乎所有音频设备（从手机到专业录音棚）都依赖 PCM 格式作为基础。

如果需要具体场景的接口选型（如选择 I2S 还是 TDM），可以进一步探讨！

音频格式

音频格式可以分为 无损格式 和 有损格式 ，以及不同的 封装格式。以下是常见的音频格式分类和介绍：

一、无损音频格式（无压缩或无损压缩）

PCM（脉冲编码调制）

特点：原始音频数据，未压缩，音质最好，但文件极大。

常见封装：WAV、AIFF、CDDA（CD音轨）。

用途：专业录音、音频编辑、CD音轨。

WAV（Waveform Audio File Format）

特点：微软开发，通常存储PCM数据（未压缩），但也可支持压缩（如ADPCM）。

用途：Windows平台、专业音频制作。

AIFF（Audio Interchange File Format）

特点：苹果开发，类似WAV，默认PCM，支持AIFF-C（压缩格式，但极少用）。

用途：Mac系统、音乐制作（如Logic Pro）。

FLAC（Free Lossless Audio Codec）

特点：开源无损压缩，体积比WAV小约50%，音质相同。

用途：高保真音乐存储、流媒体（如Tidal HiFi）。

ALAC（Apple Lossless Audio Codec）

特点：苹果的无损压缩格式，类似FLAC，但苹果生态专用（.m4a封装）。

用途：iTunes、AirPlay无损传输。

DSD（Direct Stream Digital）

特点：超高采样率（如2.8MHz/5.6MHz），用于SACD（超级音频CD）。

用途：高端Hi-Fi设备。

二、有损音频格式（压缩后音质降低）

MP3（MPEG-1 Audio Layer III）

特点：最流行的有损格式，兼容性极强，但高频细节丢失。

用途：音乐下载、流媒体、移动设备。

AAC（Advanced Audio Coding）

特点：MP3的升级版，效率更高（相同比特率下音质更好）。

封装：.m4a（苹果常用）、.mp4（视频音频流）。

用途：iTunes、YouTube、Spotify（部分）。

OGG Vorbis

特点：开源有损格式，音质优于MP3，但兼容性较差。

用途：游戏音频（如Steam）、早期Spotify。

Opus

特点：低延迟，适合实时语音和流媒体，音质优于AAC（低比特率下）。

用途：网络通话（Discord、WhatsApp）、WebRTC。

WMA（Windows Media Audio）

特点：微软开发，有损（WMA）和无损（WMA Lossless）版本。

用途：旧版Windows Media Player。

三、其他特殊音频格式

MIDI（.mid）

特点：存储音符指令而非音频数据，文件极小，依赖合成器播放。

用途：电子音乐制作、游戏背景音乐。

DSD（.dsf/.dff）

特点：1bit超高采样率音频，用于SACD。

用途：高端Hi-Fi播放。

MQA（Master Quality Authenticated）

特点：折叠式无损压缩，需专用解码器展开。

用途：Tidal Masters高解析度流媒体。

四、格式对比表

|------|------|---------------|------|--------------------|
| 格式 | 类型 | 音质 | 文件大小 | 主要用途 |
| PCM | 无损原始 | ★★★★★ | 极大 | 专业录音、CD |
| WAV | 无损封装 | ★★★★★ | 大 | Windows音频编辑 |
| FLAC | 无损压缩 | ★★★★★ | 中 | 高保真音乐存档 |
| ALAC | 无损压缩 | ★★★★★ | 中 | 苹果设备无损 |
| MP3 | 有损压缩 | ★★☆（128kbps） | 小 | 通用音乐格式 |
| AAC | 有损压缩 | ★★★（同码率优于MP3） | 小 | 流媒体（Apple/YouTube） |
| Opus | 有损压缩 | ★★★★（低延迟） | 极小 | 网络通话、实时流 |

五、如何选择合适的音频格式？

音乐制作/录音：WAV/AIFF（PCM）或FLAC/ALAC（无损压缩）。

高音质播放：FLAC、ALAC、DSD（Hi-Fi设备）。

日常听歌：MP3（兼容性强）、AAC（更高效）。

网络传输/语音：Opus（低延迟）、AAC（通用流媒体）。

如果有具体需求（如设备兼容性、音质优先级），可以进一步推荐最佳格式！

音频压缩

关于音频的封装格式和压缩

一、音频封装格式（Container Format）

封装格式是音频数据的"包装盒"，它定义了如何存储音频流（可能还有视频、字幕等元数据），但不直接决定音频的编码方式。

常见的封装格式包括：

WAV 、AIFF（无损，通常封装PCM）

MP3（既是编码格式也是封装格式）

FLAC（无损压缩封装）

OGG（可封装Vorbis、Opus等编码）

MP4/M4A（封装AAC、ALAC等）

AAC （通常以.m4a或.mp4封装）

封装格式的作用：

存储元数据：如采样率、位深度、声道数、作者信息等。

支持多轨道：例如MKV可封装多语言音频、字幕。

兼容性：不同设备/软件支持的封装格式不同（如苹果设备偏好MP4/M4A）。

📌 示例：

同一份PCM数据，可以封装为.wav（加文件头）或.aiff（苹果格式）。

MP3文件既是压缩编码，也是封装格式（不含视频等额外数据）。

二、音频压缩（编码方式）

压缩的目的是减小文件体积，分为无损压缩 和有损压缩：

无损压缩

原理：通过算法消除冗余数据，但可完全还原原始音频。

格式：FLAC、ALAC（Apple Lossless）、WAV（PCM未压缩）、APE。

特点：

音质 = 原始PCM，文件体积约为PCM的50%~60%。

适合专业音频编辑、音乐存档。

有损压缩

原理：利用心理声学模型，剔除人耳不敏感的频段（如高频弱信号）。

格式：MP3、AAC、OGG Vorbis、Opus。

特点：

文件体积大幅减小（MP3约为PCM的10%~20%）。

音质损失不可逆，高频细节可能丢失。

适合流媒体、移动设备。

三**、常见问题**

为什么WAV文件比FLAC大？

WAV直接存储PCM数据，FLAC通过无损压缩算法减小体积（类似ZIP压缩）。

MP3和AAC哪个音质更好？

相同比特率下，AAC音质通常优于MP3（AAC是MP3的升级版）。

转换格式会损失音质吗？

无损→无损（如WAV→FLAC）：无损失。

有损→有损（如MP3→AAC）：音质进一步下降。

无损→有损（如WAV→MP3）：永久丢失部分数据。

四**、总结**

封装格式是"容器"，决定文件结构和元数据。

压缩编码是"内容"，决定音质和文件大小。

无损（FLAC/WAV）适合专业用途，有损（MP3/AAC）适合日常使用。

如果需要具体场景的格式推荐（如音乐制作、语音录制），可以进一步探讨！
wav和aiff有压缩吗？

WAV 和 AIFF 文件本身是封装格式 ，它们通常不压缩音频数据 （即默认使用无损的PCM编码），但也可以包含某些压缩格式。以下是详细对比：

WAV（Waveform Audio File Format）

默认情况：

存储未压缩的PCM音频数据（无损，文件体积大）。

例如：CD音质的WAV = 44.1kHz采样率 × 16bit位深度 × 立体声 ≈ 10MB/分钟。

支持压缩的情况：

WAV的扩展性很强，可以通过编码器（Codec）存储压缩音频，例如：

ADPCM（有损压缩，用于早期语音和游戏音频）。

MP3 、GSM 、G.711（需特定编码器支持，但兼容性差）。

这类压缩的WAV文件较少见，可能被某些专业设备或软件使用。

✅ 如何判断WAV是否压缩？ 用音频工具（如Audacity、FFmpeg）查看文件属性，若编码格式显示PCM则为未压缩，显示ADPCM、MP3等则为压缩。

AIFF（Audio Interchange File Format）

默认情况：

类似WAV，AIFF通常存储未压缩的PCM数据（苹果生态常用）。

音质与WAV（PCM）完全相同，但文件结构不同（基于苹果的格式标准）。

支持压缩的情况：

AIFF的变种格式AIFF-C（Compressed） 支持压缩编码，例如：

MACE（Macintosh Audio Compression/Expansion，有损压缩）。

ALAC （Apple Lossless，无损压缩，但现代ALAC通常直接封装为.m4a）。

实际使用中，AIFF-C非常罕见，主流AIFF文件均为PCM。

WAV vs. AIFF 对比

|-------|-------------------|---------------|
| 特性 | WAV | AIFF |
| 默认编码 | PCM（未压缩） | PCM（未压缩） |
| 支持压缩 | 是（ADPCM、MP3等，但少见） | 是（AIFF-C，极罕见） |
| 文件头结构 | 微软/IBM标准 | 苹果标准 |
| 元数据支持 | 有限（依赖扩展字段） | 支持更多标签（如专辑封面） |
| 主要用途 | Windows、专业音频 | Mac、音乐制作 |

为什么通常认为WAV/AIFF是无损的？

因为它们默认使用PCM编码，而PCM是原始音频数据，未经压缩。

即使支持压缩，实际应用中几乎不会用WAV/AIFF存储MP3等有损格式（直接存为MP3/AAC更高效）。

如何确保WAV/AIFF是无损的？

检查文件的编码格式 （通过播放器或工具如MediaInfo）：

未压缩：显示PCM、Linear PCM。

压缩：显示ADPCM、MP3等。

导出时选择明确的无损选项（如DAW中导出为WAV (PCM)或AIFF (PCM)）。

总结

WAV和AIFF通常是无损的（默认PCM），但技术上支持某些压缩格式（实际极少使用）。

如果需要无损音频，直接使用WAV/AIFF（PCM）或FLAC/ALAC（压缩无损）。

如果需要有损压缩，优先选MP3、AAC等专用格式。

如果有具体的使用场景（如音乐制作、设备兼容性），可以进一步探讨最佳选择！