一、视听语音增强领域近三年研究进展
-
多模态融合与模型轻量化
- 多模态特征融合:中国科学技术大学团队提出通过引入超声舌头图像和唇部视频的联合建模,结合知识蒸馏技术,在训练阶段利用教师模型传递舌部运动知识,从而在推断时仅依赖唇部视频即可提升语音增强效果。此外,中科院声学所提出基于泰勒展开的模型架构,将幅度-相位解耦与空间-谱域解耦重新建模,提升算法可解释性并优化性能。
- 轻量化模型设计:中国科大与腾讯天籁实验室合作提出轻量级音视频语音增强模型M3Net,通过多尺度特征聚合策略(如多尺度残差网络)在减少参数量的同时保持性能,适用于移动端部署。
-
相位谱优化与鲁棒性提升
- 传统语音增强多关注幅度谱,而中科大团队提出的MP-SENet首次实现幅度和相位谱的并行去噪,通过抗卷绕损失函数优化相位预测,显著提升语音谐波恢复效果(PESQ得分达3.50)。
- 鲁棒性方面,中科院声学所团队提出基于泰勒展开的端到端模型,通过替换不稳定数值操作为可学习模块,增强了算法在低信噪比环境下的稳定性。
-
跨模态生成与脑机接口应用
- 中国科大团队结合脑电信号(EEG)与语音特征,提出BASEN模型,通过卷积跨注意力机制在多说话人场景中实现高精度语音分离,定位误差降低73.48%。
- 静默发声状态下的语音重构技术(如从舌部超声图像生成语音)通过伪目标生成和域对抗训练,显著提升可懂度(单词错误率降低15%)。
-
无监督与半监督学习
- 中科大团队提出的QM-TS-VAD方法通过质量感知动态掩膜减少伪标签错误影响,结合知识蒸馏优化目标说话人检测,在DIHARD-III数据集上性能显著提升。
- 基于VAE的混合模型(如中科院声学所研究)在视觉信息不可靠时自动切换至纯音频增强模式,提升鲁棒性。
二、国内高校优秀研究团队
-
中国科学技术大学(USTC)智能语音信息处理团队
- 研究方向:音视频联合建模、相位谱优化、脑机接口辅助增强。
- 代表作 :
- MP-SENet(并行幅度-相位去噪)
- BASEN(基于脑电信号的多说话人增强)
- 静默发声语音重构
- 合作单位:科大讯飞、腾讯天籁实验室、佐治亚理工学院。
-
中国科学院声学研究所噪声与音频声学实验室
- 研究方向:基于数学理论的可解释模型设计(如泰勒展开架构)、多通道语音增强。
- 代表作 :
- 泰勒展开驱动的单通道/多通道语音增强算法
- 波束域与谱域解耦的鲁棒性优化。
-
清华大学深圳国际研究生院与腾讯天籁实验室
- 研究方向:轻量化音视频模型、多尺度特征融合。
- 代表作:M3Net(轻量级音视频增强网络)。
三、手机厂商研究动态
-
华为
- 技术整合:华为未直接公开视听语音增强研究,但其高端机型(如Mate 70系列)强调AI降噪与多模态交互,可能整合了相关技术。
- 生态合作:与中科大联合建设的语音及语言信息处理国家工程研究中心,或为技术储备提供支持。
-
小米
- AI语音技术:小米15 Pro系列在高端市场强调AI语音降噪,可能借鉴了轻量化模型(如M3Net)的设计思路。
- 生态优势:通过小爱同学等智能助手推动语音交互优化,但未明确提及视听增强技术细节。
-
vivo
- 硬件创新:vivo X200系列计划搭载大容量电池与独显芯片,可能通过硬件加速优化语音处理性能,但具体技术路径未公开。
- 全球化布局:在印度等市场的高份额或推动本地化语音增强需求。
-
OPPO/一加(欧加集团)
- AI技术聚焦:2025年计划深化AI在语音处理中的应用,可能探索多模态语音增强技术。
-
苹果
- 未公开进展:苹果在公开资料中未提及视听语音增强技术,但其iPhone的神经网络引擎(如A18芯片)可能支持端侧语音处理优化。
-
荣耀
- 海外扩展:荣耀7800mAh电池新机或通过长续航支持实时语音处理,但技术细节尚未披露。
四、总结与展望
- 技术趋势:视听语音增强正朝着多模态融合(如脑电、舌部运动)、模型轻量化与可解释性方向发展。国内高校团队(如中科大、中科院声学所)在算法创新上处于国际前列。
- 厂商布局:手机厂商更多通过硬件升级(如大电池、AI芯片)与生态合作间接支持语音增强,但核心技术研发仍集中在高校与实验室。未来随着AI在手机端的普及(如2025年华为鸿蒙生态),厂商或加速技术整合。