一、时域特征(Time-Domain Features)
直接从语音波形时间序列中提取,反映信号随时间的幅度、能量等动态变化,计算效率高,是语音信号的基础表征:
- 短时能量(Short-Time Energy, STE):特定时间窗口内语音信号幅度的平方和,用于区分语音与静音、浊音与清音,反映语音片段的强度。
- 过零率(Zero Crossing Rate, ZCR):单位时间内语音波形穿越零轴的次数,与信号的频率特性相关,可用于区分浊音(声带振动,ZCR低)与清音(声带不振动,ZCR高)。
- 基音频率(Fundamental Frequency, F0):声带周期性振动的基础频率,是语音最核心的声学参数之一(男性典型范围85-180Hz,女性165-255Hz),决定语音的音调高低。
- 短时平均幅度(Short-Time Average Magnitude, STAM):时间窗口内语音信号幅度的平均值,与STE功能类似,更侧重刻画波形的平均强度。
- 停顿特征(Pause Features):包括停顿次数、单段停顿时长、停顿总时长占比,是语音节律的重要组成部分,反映说话的节奏间隙。
- 语速与时长特征(Speech Rate & Duration):单位时间内的音节数/单词数、单个音节/音素的平均持续时间,刻画说话的快慢与发音饱满度。
- 峰值幅度(Peak Amplitude):时间窗口内语音波形的最大幅度值,反映语音信号的瞬时强度极值。
二、频域特征(Frequency-Domain Features)
通过傅里叶变换(Fourier Transform, FT)将时域信号转换为频率域表示,反映信号的频谱结构与能量分布,揭示语音的频率特性:
- 频谱能量(Spectral Energy):不同频率区间内信号能量的累计值,用于描述语音在频域上的能量分布模式。
- 频谱重心(Spectral Centroid, SC):频谱能量的"重心"频率,与语音的"明亮度"相关,频率越高,SC值越大,信号越明亮。
- 频谱带宽(Spectral Bandwidth, SBW):频谱的离散程度,反映能量分布的频率范围,带宽越大,频率分布越分散。
- 谱通量(Spectral Flux, SF):相邻两帧频谱之间的差异程度,反映频谱的动态变化速率,用于捕捉语音的瞬态变化(如辅音发音)。
- 谐波与噪声比(Harmonic-to-Noise Ratio, HNR):语音中谐波成分(周期性振动,如浊音)与噪声成分(非周期性振动)的比值,HNR越高,语音信号越纯净。
- 共振峰(Formants, F1/F2/F3/F4):声道(vocal tract)共鸣作用产生的特征频率峰,是声道形状的声学表征(F1与舌位高低相关,F2与舌位前后相关),决定元音的音色。
- 频谱倾斜(Spectral Slope):频谱能量随频率增加的衰减速率,反映高频与低频能量的相对比例,浊音的频谱倾斜通常更平缓。
三、倒谱域特征(Cepstral-Domain Features)
通过离散余弦变换(Discrete Cosine Transform, DCT)将频谱转换为倒谱域,模拟人耳的听觉感知特性,是语音识别、特征提取的核心方法:
- 梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC):基于梅尔刻度(人耳对低频敏感、高频不敏感的非线性特性)设计,提取12-13维核心系数,搭配一阶差分(ΔMFCC)、二阶差分(ΔΔMFCC)使用,能有效压缩冗余信息,保留语音本质特征,是语音处理中应用最广泛的特征。
- 线性预测倒谱系数(Linear Predictive Cepstral Coefficients, LPCC):基于线性预测编码(Linear Predictive Coding, LPC)模型,通过模拟声道的线性滤波特性提取倒谱系数,侧重刻画声道形状,计算复杂度较低。
- 感知线性预测系数(Perceptual Linear Predictive Coefficients, PLP):结合人耳的听觉掩蔽效应与LPC模型,更贴近人类听觉感知机制,在噪声环境下的鲁棒性优于MFCC和LPCC。
- Gammatone倒谱系数(Gammatone Cepstral Coefficients, GCC):基于Gammatone滤波器组(模拟人耳基底膜的频率选择性)提取,对语音的频谱细节刻画更精细,适用于高分辨率语音分析。
四、韵律特征(Prosodic Features)
属于"超音段特征",刻画语音的宏观节律与语调变化,不依赖单个音素/音节,而是反映语音的整体动态模式:
- 基音轮廓(F0 Contour):基音频率随时间的连续变化曲线,包括F0的均值、方差、最大值、最小值、上升/下降斜率,是语调的核心表征。
- 重音特征(Stress Features):重读音节的能量增强、时长延长、F0变化幅度,用于区分语句中的重点信息,是语言表达的重要节律元素。
- 语调模式(Intonation Pattern):语句的整体语调趋势(升调、降调、平调、曲折调),与语言的语法功能(如陈述句、疑问句)和表达意图相关。
- 节奏特征(Rhythm Features):音节间的时间间隔、重音间隔的规律性,包括节奏速率、节奏稳定性,刻画说话的韵律节奏。
- 时长比率(Duration Ratio):不同音素/音节之间的时长比例关系,反映发音的协调性与规律性。
五、音质与非线性特征(Quality & Nonlinear Features)
反映语音的"质地"与非线性振动特性,用于刻画声带振动状态与发音器官功能,是线性特征的重要补充:
- 抖动(Jitter):相邻周期基音频率的微小波动程度(常用指标:Jitter%, Jitter_local, Jitter_rap),反映声带振动的稳定性,抖动增大提示声带振动不规则。
- ** shimmer(Shimmer)**:相邻周期语音幅度的微小波动程度(常用指标:Shimmer%, Shimmer_local, Shimmer_apq3),与声带闭合程度相关, shimmer升高提示声带闭合不全。
- 非线性动力学特征:基于混沌理论与非线性系统分析提取,包括Lyapunov指数(反映系统稳定性)、分形维数(反映信号复杂性)、近似熵(Approximate Entropy, ApEn)、样本熵(Sample Entropy, SampEn)(反映信号的规律性与复杂性)。
- 噪声成分特征:包括呼吸噪声强度、谐波失真度(Total Harmonic Distortion, THD),用于评估语音信号的纯净度与噪声污染程度。
六、深度学习自动提取特征(Deep Learning-Based Features)
无需人工设计,通过神经网络从原始语音或低级特征中自动学习高层抽象特征,适用于复杂语音模式识别任务:
- 端到端模型特征:通过CNN(卷积神经网络)、LSTM(长短期记忆网络)、GRU(门控循环单元)、Transformer等模型直接处理原始语音波形(Waveform)或频谱图(Spectrogram),学习到的高维嵌入特征(如卷积层输出、循环层隐藏状态),能捕捉人工特征难以覆盖的复杂模式。
- 预训练模型特征:基于大规模语音数据集预训练的模型提取的语音嵌入(Embeddings),如Wav2Vec2.0、HuBERT、wavLM、Tera等,具备强泛化能力,可直接用于下游语音处理任务,性能显著优于传统人工设计特征。
七、长语音聚合特征(Aggregate Features for Long Speech)
针对长时语音(如分钟级)的特性,对帧级/段级基础特征进行时间维度的聚合统计,提取全局或分段模式:
- 统计聚合特征:对帧级特征(如MFCC、F0、能量)计算全局统计量,包括均值、方差、偏度、峰度、分位数(25%/50%/75%分位数)、最大值/最小值、极差等。
- 分段聚合特征:将长语音划分为固定时长的片段(如10秒/段),提取每段的帧级特征统计量,构成片段级序列特征,适用于时序模型处理。
- 趋势特征:通过线性回归、滑动窗口等方法捕捉特征随时间的变化趋势,如特征均值的回归斜率、滑动窗口均值的变化率等。