语音信号的时域、频域与时频域特征

语音信号的时域、频域与时频域特征综合详解

语音信号是典型的时变非平稳信号(短时间内可近似平稳),其特征提取的核心是从"时间-幅度""频率-功率""时间-频率"三个维度,将原始波形转换为具有物理意义或统计辨识度的数值表征。

一、时域特征(Time-Domain Features)

时域特征直接从时间-幅度波形中提取,无需复杂变换,计算高效、物理意义直观,核心反映信号随时间的幅度变化、周期性和随机性。

1. 基础时域统计特征(幅度与能量相关)

  • 短时能量(Short-Time Energy, STE)
    • 计算:帧内采样点幅度平方和(或绝对值和),STE(n)=∑m=0N−1∣x(nN+m)∣2STE(n) = \sum_{m=0}^{N-1} |x(nN+m)|^2STE(n)=∑m=0N−1∣x(nN+m)∣2(NNN 为帧长,nnn 为帧索引)。
    • 物理意义:表征帧内信号强弱,用于区分语音(浊音/清音)与静音------浊音能量高,清音能量低,静音能量接近0。
  • 短时平均幅度(Short-Time Average Magnitude, SAM)
    • 计算:帧内采样点绝对值的平均值,SAM(n)=1N∑m=0N−1∣x(nN+m)∣SAM(n) = \frac{1}{N} \sum_{m=0}^{N-1} |x(nN+m)|SAM(n)=N1∑m=0N−1∣x(nN+m)∣。
    • 物理意义:与STE类似,对异常值更鲁棒,反映信号整体幅度水平。
  • 峰值幅度(Peak Amplitude)
    • 计算:帧内采样点的最大绝对值。
    • 物理意义:反映帧内信号最大强度,用于检测爆破音(如/p/、/b/)或过载信号。
  • 均值(Mean)/ 方差(Variance)
    • 计算:帧内采样点的平均值(反映直流分量,通常接近0)、平方差(反映信号波动程度)。
    • 物理意义:方差与能量正相关,辅助判断信号稳定性。

2. 时域周期性与随机性特征

  • 短时过零率(Short-Time Zero Crossing Rate, ZCR)
    • 计算:帧内信号穿越零轴的次数,ZCR(n)=12(N−1)∑m=0N−2∣sign(x(nN+m))−sign(x(nN+m+1))∣ZCR(n) = \frac{1}{2(N-1)} \sum_{m=0}^{N-2} |sign(x(nN+m)) - sign(x(nN+m+1))|ZCR(n)=2(N−1)1∑m=0N−2∣sign(x(nN+m))−sign(x(nN+m+1))∣。
    • 物理意义:反映信号频率特性,清音(如/f/、/s/)ZCR远高于浊音,静音ZCR接近0,用于语音/静音分割、清音/浊音分类。
  • 时域熵(Time-Domain Entropy)
    • 核心类型:时域幅度熵、时域过零率熵。
    • 计算:对帧内幅度分布或过零率分布做香农熵运算。
    • 物理意义:衡量时域信号的随机性------清音幅度分布均匀,时域熵高;浊音幅度集中,时域熵低。

3. 基音相关特征(浊音核心特征)

  • 基音周期(Fundamental Period, T0)与基音频率(F0)
    • 定义:浊音信号的声带振动周期(T0,单位ms),对应基音频率 F0=1/T0F0 = 1/T0F0=1/T0(人类语音F0:男性80-200Hz,女性150-350Hz)。
    • 计算:短时自相关法(ACF)、短时平均幅度差法(AMDF)。
    • 物理意义:决定语音"音调"高低,是声纹识别、音调分析的核心指标。
  • 基音频率标准差(F0 Std)
    • 计算:多帧F0的标准差,反映音调稳定性。

4. 时间结构与相关性特征

  • 语音持续时间(Duration):单个音素、音节或单词的长度(ms),反映发音速度与节奏。
  • 停顿特征:停顿次数、总时长、平均长度,表征语音韵律结构(语句间停顿长,词内停顿短)。
  • 语速(Speech Rate):单位时间内的音节数/音素数(如音节/秒),直接表征发音快慢。
  • 短时自相关系数(Short-Time Autocorrelation Function, ACF)
    • 计算:帧内信号与自身延迟信号的相关性,R(k)=∑m=0N−k−1x(m)x(m+k)R(k) = \sum_{m=0}^{N-k-1} x(m)x(m+k)R(k)=∑m=0N−k−1x(m)x(m+k)。
    • 物理意义:浊音ACF有明显周期性峰值(对应T0),清音无周期性,用于基音检测和浊音/清音分类。
  • 短时平均幅度差(Short-Time Average Magnitude Difference Function, AMDF)
    • 计算:帧内信号与延迟信号的幅度差平均值,AMDF(k)=1N−k∑m=0N−k−1∣x(m)−x(m+k)∣AMDF(k) = \frac{1}{N-k} \sum_{m=0}^{N-k-1} |x(m) - x(m+k)|AMDF(k)=N−k1∑m=0N−k−1∣x(m)−x(m+k)∣。
    • 物理意义:浊音在T0处有最小值,计算量低于ACF,适用于实时基音检测。

二、频域特征(Frequency-Domain Features)

通过傅里叶变换(FT) 将时域信号转换为"频率-功率/幅度"分布,聚焦信号的频率成分构成、能量分配及频谱形状,核心反映声道谐振(共振峰)、谐波结构等特性。

1. 基础频谱与能量特征

  • 功率谱密度(Power Spectral Density, PSD)
    • 计算:傅里叶变换频谱的模平方归一化,P(f)=∣X(f)∣2/NP(f) = |X(f)|^2 / NP(f)=∣X(f)∣2/N,或韦尔奇法(分窗、重叠、平均)降低方差。
    • 物理意义:单位频率的功率,浊音PSD有明显谐波峰值(基频及整数倍),清音PSD近似平坦(类白噪声)。
  • 频谱幅度(Spectral Magnitude)/ 频谱相位(Spectral Phase)
    • 定义:傅里叶变换的模(幅度谱,决定频率能量分布)与辐角(相位谱,影响时域波形重建)。
  • 频域能量(Frequency-Domain Energy)
    • 核心类型:频谱能量积分、谐波能量、共振峰能量、频段能量占比(如100-300Hz低频能量)。
    • 物理意义:表征不同频率区间的能量强度,用于区分浊音(低频能量集中)与清音(高频能量占比高)。

2. 频谱形状统计特征

  • 频谱质心(Spectral Centroid, SC)
    • 计算:频谱能量的"重心"频率,SC=∑f=0Fs/2f⋅P(f)∑f=0Fs/2P(f)SC = \frac{\sum_{f=0}^{F_s/2} f \cdot P(f)}{\sum_{f=0}^{F_s/2} P(f)}SC=∑f=0Fs/2P(f)∑f=0Fs/2f⋅P(f)(FsF_sFs 为采样率)。
    • 物理意义:反映"明亮度",高频丰富则SC高(清音、儿童语音),低频主导则SC低(浊音、男性语音)。
  • 频谱带宽(Spectral Bandwidth, SBW)
    • 计算:频谱围绕质心的标准差,反映频谱分散程度------带宽宽表示频率成分丰富(如爆破音),窄则频率集中(如纯音)。
  • 频谱斜率(Spectral Slope, SS):频谱幅度随频率的线性回归斜率(dB单位),浊音斜率平缓,清音斜率陡峭(高频能量快速衰减)。
  • 频谱通量(Spectral Flux, SF)
    • 计算:相邻帧频谱的欧氏距离,SF(n)=∑f=0Fs/2∣P(n,f)−P(n−1,f)∣2SF(n) = \sum_{f=0}^{F_s/2} |P(n,f) - P(n-1,f)|^2SF(n)=∑f=0Fs/2∣P(n,f)−P(n−1,f)∣2。
    • 物理意义:反映频谱时间变化率,音素切换或爆破音起始时SF值大,稳态浊音时SF值小。
  • 频谱滚降点(Spectral Rolloff Point, SRP):累计能量达总能量85%/90%的频率,直观反映高频成分占比。
  • 频谱平坦度(Spectral Flatness, SF)
    • 计算:功率谱几何均值与算术均值的比值,SF=exp⁡(1F∑ln⁡P(f))1F∑P(f)SF = \frac{\exp\left(\frac{1}{F} \sum \ln P(f)\right)}{\frac{1}{F} \sum P(f)}SF=F1∑P(f)exp(F1∑lnP(f))。
    • 物理意义:衡量"噪声相似性",SF≈1(清音、噪声),SF≈0(浊音、频谱集中信号)。
  • 频谱对比度(Spectral Contrast, SC)
    • 计算:将频谱划分为若干频段,计算每个频段峰值能量与相邻频段谷值能量的差值。
    • 物理意义:量化频谱峰谷结构,元音共振峰的对比度高于辅音,用于元音识别和语音清晰度评估。

3. 谐波与共振峰特征(声道与声门特性)

  • 谐波频率(Harmonic Frequencies) :浊音中基频 F0F0F0 的整数倍频率(2F0,3F0,...2F0, 3F0,...2F0,3F0,...),构成浊音核心频率成分。
  • 谐波幅度比(Harmonic Amplitude Ratio, HAR):各次谐波与基波的幅度比,反映声门振动特性。
  • 谐波噪声比(Harmonic-to-Noise Ratio, HNR):谐波能量与噪声能量的比值(dB),衡量浊音纯净度------HNR高则浊音清晰,低则含噪声多(如耳语)。
  • 共振峰频率(Formant Frequencies, F1/F2/F3...):声道谐振频率,元音音色由前3个共振峰决定(如/i/的F1低、F2高,/a/的F1高、F2中等)。
  • 共振峰带宽(Formant Bandwidth):共振峰峰值-3dB处的频率范围,反映声道阻尼特性,带宽窄则共振强。

4. 频域熵(Frequency-Domain Entropy)

  • 核心类型:谱熵(Spectral Entropy, SE)、谐波熵、共振峰熵。
  • 计算:对归一化功率谱做香农熵运算,SE=−∑P(f)log⁡2P(f)SE = -\sum P(f) \log_2 P(f)SE=−∑P(f)log2P(f)。
  • 物理意义:衡量频谱能量分布均匀性------清音(均匀分布)谱熵高,浊音(集中分布)谱熵低,静音谱熵极低。

三、时频域特征(Time-Frequency Domain Features)

语音的时变特性导致纯时域/频域特征无法兼顾"时间动态"与"频率分布",时频域特征通过短时傅里叶变换(STFT)、小波变换(WT)、恒定Q变换(CQT) 等方法,将信号映射到"时间-频率"二维平面,同时保留二者联合信息,是语音处理中最核心、最鲁棒的特征类型。

1. 基础时频可视化与能量特征

  • 语谱图(Spectrogram)
    • 定义:STFT幅度谱/功率谱的热力图(横轴时间,纵轴频率,颜色深浅表示能量)。
    • 物理意义:直观呈现时频演变,浊音表现为水平条纹(谐波延续),清音为随机噪声,共振峰为暗带(能量集中)。
  • 梅尔谱图(Mel Spectrogram)
    • 定义:STFT后通过梅尔滤波器组(模拟人耳对数听觉特性)得到的时频图,Mel(f)=2595log⁡10(1+f/700)Mel(f) = 2595 \log_{10}(1 + f/700)Mel(f)=2595log10(1+f/700)。
    • 物理意义:压缩高频维度,符合人类感知,是语音识别的核心输入。
  • 时频域能量(Time-Frequency Energy)
    • 核心类型:语谱图能量、梅尔谱能量、时频窗口能量。
    • 物理意义:"某一时刻+某一频率"的联合能量强度,是时频特征的基础量化指标。

2. 倒谱系数特征(时频域压缩与鲁棒表征)

  • 梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)
    • 提取步骤:预加重→分帧加窗→STFT→梅尔滤波→对数变换→DCT→取前12-13个系数(可选delta/delta-delta系数)。
    • 物理意义:映射梅尔谱到倒谱域,保留核心频谱结构(共振峰、谐波),降低维度,是语音识别、声纹识别的经典特征。
  • 线性预测倒谱系数(Linear Predictive Cepstral Coefficients, LPCC)
    • 提取步骤:LPC分析(逼近声道传输函数)→ 转换为倒谱系数。
    • 物理意义:聚焦共振峰特性,计算量小,适用于低资源场景(如嵌入式识别),噪声鲁棒性弱于MFCC。
  • Gammatone倒谱系数(Gammatone Frequency Cepstral Coefficients, GFCC)
    • 定义:用Gammatone滤波器组(模拟人耳基底膜特性)替换MFCC的梅尔滤波器组。
    • 物理意义:更符合人耳生理机制,噪声鲁棒性强,适用于复杂环境语音处理。

3. 小波与恒定Q变换特征(多分辨率与时频灵活性)

  • 小波系数(Wavelet Coefficients)
    • 定义:小波变换(分解为不同尺度/位置的小波基)的系数,尺度对应频率(大尺度=低频,小尺度=高频),位置对应时间。
    • 物理意义:多分辨率分析,高频时间分辨率高、低频频率分辨率高,适合捕捉瞬态成分(如爆破音)和稳态成分(如元音)。
  • 小波包系数(Wavelet Packet Coefficients):对小波变换的高频部分进一步分解,保留更多高频细节,适用于辅音精细分析。
  • 恒定Q变换特征(Constant-Q Transform, CQT)
    • 定义:频率轴对数划分(低频分辨率高、高频分辨率低),Q值恒定,符合人耳感知。
    • 物理意义:兼顾低频频率精度与高频时间精度,常用于音乐语音混合、复杂频谱分析。

4. 色度图特征(时频域音高关系表征)

  • 核心定义:基于时频变换(STFT/CQT/VQT),将频率轴映射为12个半音(色度区间),聚合每个区间的能量,形成"时间×色度"二维矩阵(热力图)。
  • 分类与变体:
    • 按底层变换:STFT-Based Chroma(线性频率,计算简单)、CQT-Based Chroma(对数频率,适合旋律)、VQT-Based Chroma(Q值可调,灵活)。
    • 后处理优化:CENS(色度能量归一化统计,能量归一化+时间平滑+离散化,鲁棒性更强)。
  • 物理意义:对音高平移不敏感,聚焦相对音高关系,用于语音语调分析、旋律提取、和弦识别。

5. 时频域熵(Time-Frequency Entropy)

  • 核心类型:时频熵、梅尔谱熵、小波包熵。
  • 计算:对时频矩阵(语谱图、小波包系数矩阵)的元素分布做香农熵运算。
  • 物理意义:衡量时频能量分布的不确定性------语音过渡段(辅音→元音)熵高,稳态元音熵低,用于噪声环境下的语音检测。

三大维度特征对比总结

特征维度 核心优势 核心局限 关键特征代表 典型应用场景
时域特征 计算简单、实时性强、物理意义直观 无法反映频率分布,对噪声敏感 STE、ZCR、F0、ACF、时域熵 语音/静音分割、基音检测、实时语音检测
频域特征 清晰体现频率成分、共振峰/谐波特性 丢失时间信息,无法捕捉时变规律 PSD、频谱质心、频谱平坦度、共振峰、谱熵 元音识别、声道特性分析、频谱匹配
时频域特征 同时保留时间和频率信息,鲁棒性强 计算复杂度高,需变换处理 MFCC、梅尔谱图、色度图、小波系数、CENS 语音识别、声纹识别、语调分析、复杂环境语音处理

实际应用中,常通过"跨维度特征组合"(如MFCC+delta+短时能量+谱熵)全面表征语音信号,兼顾强度、频率、时变特性与鲁棒性,为后续处理任务(识别、合成、编码等)提供强判别力输入。

相关推荐
一水鉴天8 小时前
整体设计 定稿 之6 完整设计文档讨论及定稿 之4 整体设计数据库设计规范(含两个版本)
开发语言·人工智能·架构
正经教主8 小时前
【Trae+AI】和Trae学习搭建App_2.1:第3章·手搓后端基础框架Express
人工智能·后端·学习·express
梁辰兴8 小时前
OpenAI更新ChatGPT Images:生成速度最高提升4倍,原生多模态模型
人工智能·科技·ai·chatgpt·大模型·openai·图像生成
古城小栈8 小时前
边缘大模型本地部署与推理实战:以GPT-OSS-20B为例
人工智能·gpt·语言模型·边缘计算
感谢地心引力8 小时前
【AI】免费的代价?Google AI Studio 使用指南与 Cherry Studio + MCP 实战教程
人工智能·ai·google·chatgpt·gemini·mcp·cherry studio
Tezign_space9 小时前
SEO优化与AI内容运营的技术融合:架构、算法与实施路径
人工智能·架构·内容运营·私域运营·ai内容生成·seo流量增长·内容运营效率
小苑同学9 小时前
PaperReding:《LLaMA: Open and Efficient Foundation Language Models》
人工智能·语言模型·llama
geneculture9 小时前
融智学体系图谱(精确对应版)
大数据·人工智能·学习·融智学的重要应用·信智序位
业精于勤的牙9 小时前
浅谈:算法中的斐波那契数(六)
人工智能·算法