【记录】AU｜什么是泛音和音高，在频谱上如何体现？人类和乐器的区别明显吗？走近基本知识：从泛音列到人声奥秘的声学探索

文章目录

省流版
- 基本操作
- 观察结果
详细版
- 前言：一次好奇驱动的探索
- [一、实验准备：AU中的基础工具](#一、实验准备：AU中的基础工具)
- [二、核心发现：乐音 vs. 人声的频谱世界](#二、核心发现：乐音 vs. 人声的频谱世界)
- - [1. 谐波的秩序：乐器为何听起来"丰满"？](#1. 谐波的秩序：乐器为何听起来“丰满”？)
  - [2. 人声的"指纹"：声道如何塑造我们的声音？](#2. 人声的“指纹”：声道如何塑造我们的声音？)
  - [3. 衰减的"幻觉"：软件如何"听"错音高？](#3. 衰减的“幻觉”：软件如何“听”错音高？)
- [三、深入探索：从业余到专业的频谱桥梁](#三、深入探索：从业余到专业的频谱桥梁)
- [四、总结：声音宇宙的启示](#四、总结：声音宇宙的启示)

省流版

基本操作

效果--生成--音调可以生成对应音调的正弦波。

视图-显示频谱音高可以查看音高。

多轨道可以这样调节音量。

片段调节音量可以用效果-振幅与压限-标准化（处理），调整dB值。

观察结果

音谱确实是对应着音高，不过乐器的音高会混合均匀很多，因为它有很多的高音的泛音，但是人声呢它的音调它是比较有限的，泛音也不均匀。

下图是人声，从低音到高音不同的"啊"，可以看到最亮的那个条纹，它在逐渐的抬高，并且条纹和条纹之间的间距也在逐步增加：

这是弦乐器在弹奏C4音的时候的频谱显示：

这是它们两个的频谱对比（可以看到，人声发出"啊"这个音节时在部分的频段是缺失的）：

这是它们两个的音高对比（人声部分不太稳定，不过音调是正确的）：

在衰减的时候，它们都会突然的低八度或者说低16度。这是因为软件在计算音高的时候，它会把声小的直接作为低八度的，就是它的计算的算法的问题。这个并不是真正的在音高上唱的是低八度。

绝大多数消费级的调音软件或APP（包括一些"专业"测试仪），其音高识别算法并不完美。它们的工作原理是：

捕捉一段声波。

计算其基频（F0）。

将这个基频映射到十二平均律中最接近的音名和八度。

这里有一个关键陷阱： 当琴弦声音非常微弱、泛音变得比基音还强、或出现谐波失真 时，算法很容易错误地判断基频的"八度"。

例如，一个微弱、失真的C4（262Hz）信号，其二次谐波（C5，524Hz）可能被算法误判为主要成分，然后它除以2，得出结论："这是C4"。

或者，当基频信号弱到与背景噪音差不多时，算法可能会锁定在一个次谐波（即频率为真实基频1/2或1/4的分量）上，从而显示出"低八度"或"低十六度"的音高。

但是专业的歌手可能会通过一些技巧使频谱的缺失更少，声音更饱满更像乐器，比如周深的《幽灵公主》纯人声版，也是只有"啊"这个字，但是频谱几乎是铺满了：

为了公平起见，为了让大家感受一下，这并不是因为音量增大了所以才铺满，我也唱了一段，然后将他的人声和我自己的人声大小调整得几乎一致。可以看到在最亮的地方，我们的亮度是差不多的。但是我整整少了两大块、或者说比两块更多的动态范围，即使音量已经调比较小，周深那边还是能够看到，铺得更满：

可能这就是人类和乐器之间的区别吧。

详细版

前言：一次好奇驱动的探索

最初，我只是想弄明白尤克里里和弦的原理。没想到，这个简单的问题像打开了一扇门，引着我从乐理、声学一路追问到了频谱分析。我用Adobe Audition（AU）作为"声音显微镜"，观察了乐器、人声乃至专业歌手的声音。本文将记录这次探索的发现，并尝试解释那些看似简单的频谱图背后，隐藏的关于和谐、音色与人声的深刻原理。

一、实验准备：AU中的基础工具

在开始观察前，需要先熟悉几个关键的"手术刀"。

生成纯净的参照音 ：效果 -> 生成 -> 音调。这可以生成一个几乎不含泛音的正弦波，是理解"音色"构成的完美参照物。
打开频谱分析仪 ：视图 -> 显示频谱音高。这是我们主要的观察窗口，它将声音的"时间-响度"波形，转换为一目了然的"频率-能量"图谱。
调整音量以公平对比：
- 多轨道整体调节 ：直接在轨道上调整音量滑块。
- 单个片段精确调节 ：效果 -> 振幅与压限 -> 标准化（处理），通过调整dB值来统一不同音频片段的响度，确保对比不受音量大小干扰。

二、核心发现：乐音 vs. 人声的频谱世界

通过对比乐器（尤克里里）演奏的C4音和自己发出的"啊------"元音，我发现了几个颠覆直觉的现象。

1. 谐波的秩序：乐器为何听起来"丰满"？

乐器（如尤克里里弹奏C4）的频谱，呈现出一系列清晰、等间距的垂直亮线 。

这是什么？ 这就是泛音列 （或谐波系列）。最下面最亮的线是基音（C4， ~262Hz），它决定了我们听到的音高。上面的每一条线，都是基音频率的整数倍（2倍、3倍、4倍、5倍...），分别对应高八度C、纯五度G、再高八度C、大三度E等。
为何重要？ 这些和谐排列的泛音，正是乐器声音饱满、圆润、有"乐器感" 的物理根源。它们作为一个整体被大脑感知，基音提供音高，泛音集体贡献音色。

2. 人声的"指纹"：声道如何塑造我们的声音？

当我发出"啊------"的声音时，频谱图呈现出完全不同的景观。

现象一：条纹随音高"整体平移"并"间距变宽"

从低音"啊"到高音"啊"，最亮的条纹（基音）在抬高，同时所有条纹之间的视觉间距也在增加。
- 原理：这不是唱功问题，而是纯粹的数学和信号处理现象。人声也是谐波音，其谐波间距等于基频。基频（音高）越高，绝对频率差越大。在频谱图固定精度的"频率标尺"下，更大的频率差自然占据了更宽的像素距离，看起来就"变宽"了。
现象二：频谱中存在明显的"空白"或"缺失"区域

将人声与乐器频谱直接对比，差异惊人。

乐器频谱的谐波能量分布相对连续，而人声频谱在部分频段出现了明显的能量低谷或中断。
- 原理：声源-滤波器模型 。人声并非简单的谐波振动。
  1. 声源：声带产生一个富含所有谐波的原始"蜂鸣"。
  2. 滤波器 ：喉咙、口腔、鼻腔构成的声道，像一个智能均衡器，会根据形状（发不同元音时）强烈放大某些频段（形成共振峰） ，同时强烈衰减其他频段（形成"零点"或反共振峰）。
- 这些"缺失"正是人声的声学指纹 ！它们和共振峰一起，编码了"啊"和"咦"的区别，也构成了每个人独一无二的嗓音特征。乐器的共鸣腔设计目标是让声音和谐丰满，而人声道的第一要务是高效传递语音信息。

3. 衰减的"幻觉"：软件如何"听"错音高？

在观察声音衰减过程时，我发现AU的频谱音高显示会在尾声突然跳到低八度甚至低十六度。

这不是物理事实，而是算法局限 。当声音微弱时，基音能量可能低于泛音或噪音，调音算法会迷失方向：
- 可能将某个较强的泛音误判为基音，然后错误地映射到低八度。
- 可能锁定一个次谐波（频率为基频1/2或1/4的成分）。
你的耳朵更聪明：大脑会将其识别为"正在消失的C音"，而软件则给出了一个字面但错误的"低C"读数。

三、深入探索：从业余到专业的频谱桥梁

既然人声的"缺失"是生理结构所致，那专业歌手为何能发出乐器般饱满的声音？例如这是周深的《幽灵公主》纯人声吟唱片段：

我对比了自己和歌手周深在《幽灵公主》纯人声吟唱片段中的"啊"。

为了公平，我将两段音频的音量标准化到相同水平。

震撼的发现 ：即便响度相同，周深的频谱在动态范围上远超于我。我的频谱存在大片缺失和陡降，而他的频谱能量分布更宽、更连续，高频泛音丰富得多，更接近乐器那种"均匀铺满"的状态。

这揭示了声乐技术的本质 ：专业训练（如打开喉咙、抬高软腭、优化呼吸支撑）在很大程度上是在重塑声道这个"滤波器" 。通过极其精细的肌肉控制，歌手可以：
1. 拓宽共振峰，让能量覆盖更连续的频段。
2. 减少有害的"零点"衰减，让更多泛音得以通过。
3. 强化声源，让声带产生更丰富、强度更高的原始谐波。
结果：人声频谱中的"沟壑"被填平，"山峰"变得更高更广，从而获得了更丰满、更穿透、更具"乐器融合度"的音色。这并非改变人的本质，而是将人体乐器的性能发挥到极致。

四、总结：声音宇宙的启示

这次用AU进行的探索，远不止于软件操作。它是一次从现象出发，直抵声学原理的旅程：

和谐源于数学 ：乐器动听的和谐感，其物理基础是振动产生的整数倍泛音列。
音色可见可析 ：频谱图将抽象的"音色"分解为具体的频率能量分布。均匀的谐波线 对应丰满的乐音，峰谷交错的结构对应承载信息的人声。
人声是精密的生物仪器：我们听到的说话或歌唱，是声带（声源）与声道（滤波器）复杂协作的结果。频谱上的每一处凹凸，都是生理结构与发声技巧的忠实记录。
技术拓展可能：专业歌手的频谱表明，通过训练，人声可以无限逼近乐器的饱满度，但永远保留着那份独特的、充满表现力的"人味"。

从一根琴弦的振动，到人类嗓音的奥秘，声音的世界由严谨的物理法则构建，却又因生命的参与而变得情感丰沛、变化无穷。频谱分析，就是我们理解这座伟大宇宙的一把钥匙。

本账号所有文章均为原创，欢迎转载，请注明文章出处：https://shandianchengzi.blog.csdn.net/article/details/156649009。百度和各类采集站皆不可信，搜索请谨慎鉴别。技术类文章一般都有时效性，本人习惯不定期对自己的博文进行修正和更新，因此请访问出处以查看本文的最新版本。