唇语识别中的音频信号

文章目录

【1】声音的本质
【2】基础知识
【3】如何将模拟信号变为数字信号？（PCM编码）
【4】音频的存储与压缩
【5】进阶知识：从数字信号到特征

【1】声音的本质

当你说话时，你的声带在振动。这种振动会推挤周围的空气，形成一种疏密相间的压力波 ------这种波，就是声音，学术上称为机械波 。

它的两个核心属性决定了我们听到的声音体验：

频率：指每秒振动的次数，单位是赫兹（Hz）。它决定了声音的音调。
- 振动快 -> 频率高 -> 音调高（如女高音）
- 振动慢 -> 频率低 -> 音调低（如男低音）
振幅：指振动强度的物理量。它决定了声音的响度（音量）。
- 振幅大 -> 能量高 -> 声音响
- 振幅小 -> 能量低 -> 声音轻

【2】基础知识

为了让计算机能处理声音，我们需要将自然界中的信号进行"翻译"：

模拟信号 ：在时间和幅度上都连续的信号。自然界中大多数信号，包括声音，最初都是模拟信号。

数字信号 ：在时间和幅度上都离散的信号。这是计算机能够存储和处理的格式。

复制代码

AT：
1.时间连续：在任意一个时间点都有确定的信号值。例如，温度和红绿灯的颜色在时间上都是连续的，因为它们在每一刻都有确定的读数或状态。

2.幅度连续：信号的取值变化是平滑、无间隔的，可以取无限个可能的数值。例如，温度可以从20℃无缝地变化到21℃，其间的所有值（如20.0001℃）都是可能的，因此它的幅度是连续的。而红绿灯的颜色状态只有有限的几种

唇语识别系统处理的，正是这种离散的数字信号。

【3】如何将模拟信号变为数字信号？（PCM编码）

将模拟信号转换为数字信号的过程，被称为 PCM（脉冲编码调制） 编码。

下图展示了从连续模拟信号到离散数字信号的转换流程：

采样：以固定的时间间隔，测量模拟信号的瞬时振幅值。
采样率 ：每秒采样的次数（Hz）。奈奎斯特-香农定理 告诉我们：采样率必须至少是信号中最高频率的2倍 ，才能无失真地还原声音。
- 人耳听觉范围：20Hz - 20kHz。
- 常见标准：CD音质（44.1kHz，满足还原人耳听觉），语音识别（16kHz或8kHz，因语音主要能量集中在中低频）。
量化：将采样得到的连续振幅值，映射到一个有限离散集合（量化等级）中的某个值上的过程。
位深：表示每个采样点振幅值的二进制位数，决定了有多少个"等级"（如16bit有2^16=65536个等级，范围是32768~32767）。位深越高，记录的声音细节越丰富，动态范围越广。
编码：将量化后的整数值，最终转换为二进制码流，并按照特定格式存储起来。

【4】音频的存储与压缩

数字音频信号主要有两种存储方式：
无损压缩 ：如同用ZIP压缩文件，可完全还原，不损失任何信息。适用于音频资料的存档（如FLAC, APE）。

有损压缩 ：通过去除人耳不敏感的音频信息，大幅减小文件体积。适用于网络传输和消费级应用（如MP3, AAC）。

复制代码

 AT:
 FLAC: Free Lossless Audio Codec (免费无损音频编解码器)
 APE: Monkey's Audio (猴子音频)
 AAC: Advanced Audio Coding (高级音频编码)

唇语识别关联 ：在开始模型训练前，我们通常需要将所有音频文件统一解码为标准PCM格式的数字音频信号，即获取时间序列形式的振幅离散值。并进行后续的特征提取。

【5】进阶知识：从数字信号到特征

PCM编码后的数字信号 （即离散时间序列）虽然包含所有信息，但直接扔给模型，就像让一个人通过看像素点来识别图片一样低效。因此，我们需要从中提取更有代表性的声学特征。

1.时域与频域（基础知识）

时域：横轴是时间，纵轴是振幅。它告诉我们 "振幅如何随时间变化" ，即我们熟悉的波形图。
频域：横轴是频率，纵轴是能量。它告诉我们 "声音里有哪些频率成分，各自有多强" 。通过傅里叶变换，可以实现从时域到频域的转换。

频谱图 ：它是语音识别和唇语识别中最常用的特征表示之一。它将时域和频域结合，横轴是时间，纵轴是频率，颜色表示能量。它直观展示了频率成分如何随时间演变 。

2.关键声学特征（用于模型输入）

梅尔频谱图 ：模仿人耳听觉特性（人耳对低频分辨力强于高频）的非线性频谱图。它是当前端到端模型最常用的音频前端输入。
MFCC ：在梅尔频谱基础上，通过一系列处理（取对数、DCT变换等），"提纯"出表征语音内容的核心信息。它能有效过滤掉说话人身份、情绪等冗余信息，专注于"发了什么音"。
F0（基频） ：代表了声音的音高，对应声带振动的频率 。它是区分清浊音（如/p/和/b/）的关键，而清浊音在唇形上无法区分，这就体现了音频的互补价值
共振峰 ：元音音色的决定因素，是频谱中能量集中的频带区域。第一（F1）、第二（F2）共振峰 与嘴的张合度、舌位的前后 直接相关，是连接嘴部动作 与音频特征最直接的桥梁。