Whisper-Flamingo论文阅读

2024.11

1.摘要

background

数据不平衡问题:音视听语音识别(AVSR)利用唇语视频来提高噪音环境下的识别性能,但高质量的视频数据(几千小时)远少于纯音频数据(数十万小时)。

现有方法的局限:目前的AVSR模型通常在有限的视频数据上从头训练,或者简单地微调,这导致文本解码器的能力不如那些在大规模音频数据上训练的模型(如Whisper)。

目标:利用在大规模数据上训练好的Whisper模型的强大解码能力,将其适配到视频输入上,以解决训练数据差异带来的问题 。

innovation

Whisper-Flamingo****架构 :受视觉-语言模型 Flamingo 的启发,提出了一种通过门控交叉注意力(Gated Cross Attention)将视觉特征注入到 Whisper 模型中的方法 。

高效适配 :保持 Whisper 的大部分参数冻结,只训练新插入的交叉注意力层,使其能够利用 AV-HuBERT 提取的视觉特征 。

多任务能力 :该模型不仅能做英语语音识别(ASR/AVSR),还能利用同一套参数进行英语到其他语言(En-X)的语音翻译,且在噪声环境下表现优异 。

  1. 方法 Method

总体 Pipeline

Whisper-Flamingo 的构建分为两个阶段:

  1. 纯音频微调 (Audio-Only Fine-tuning):首先在目标域(如 LRS3)上微调纯音频的 Whisper 模型,以适应特定领域的声学特征和文本分布 11。
  2. 音视听适配 (Audio-Visual Adaptation):冻结微调后的 Whisper 音频编码器和解码器的大部分参数,在解码器层中插入新的"门控交叉注意力层"。同时使用预训练的 AV-HuBERT 作为视觉编码器(冻结参数),仅训练新插入的层 12。

具体模块与输入输出

输入 (Input)

音频:80-bin Log-Mel 频谱图(16kHz采样)13。

视频:嘴唇区域的灰度视频帧(25fps),经过预训练的 AV-HuBERT Large 提取视觉特征。

文本 Prompt:SOT(Start of Transcript)等控制 token。

视觉编码器 (Visual Encoder):使用 AV-HuBERT Large,并在训练中冻结其权重(但允许 dropout 和 BN 更新)16161616。

解码器融合机制 (Gated Cross Attention)

在 Whisper 解码器的每个 Block 的自注意力层(Self Attention)之前插入门控交叉注意力层 17。

公式:

其中x是解码器输入,v 是视觉特征。

初始化策略:可学习参数 \\alpha 初始化为 0。由于 \\tanh(0)=0,初始状态下该层为恒等映射(Identity),保留了 Whisper 原有的纯音频能力,随着训练逐渐引入视觉信息 18。

输出 (Output):预测的文本 token 序列(英语转录或翻译文本)19。

  1. 实验 Experimental Results

数据集

训练集:LRS3 (433h), LRS3 + VoxCeleb2 (1759h) 。

评测集:LRS3 Test, LRS2 Test, MuAViC (用于翻译评测) 。

噪声设置:使用 MUSAN 和 LRS3 的 babble noise 进行 0-SNR 的加噪测试 。

实验结论

  1. LRS3 英语识别

Whisper-Flamingo 达到了 SOTA 效果。Clean WER 为 0.68%,Noisy (0-SNR) WER 为 5.6%。相比纯音频 Whisper (Noisy WER 11.7%),性能大幅提升 。

相比其他 AVSR 模型(如 AV-HuBERT),在低信噪比下表现更好且参数利用率更高 。

  1. LRS2 英语识别

达到了 SOTA AVSR WER (1.4%),优于 AutoAVSR 等之前的方法 。

  1. En-X 语音翻译 (MuAViC)

Whisper-Flamingo 能够用同一个模型处理转录和翻译。

在噪声环境下,翻译性能显著优于纯音频 Whisper(BLEU 从 18.6 提升至 20.5)。

  1. 消融实验

对比 Early Fusion 和 Late Fusion,门控交叉注意力(Gated Cross Attention)在噪声环境下效果最好(WER 7.0% vs Early Fusion 10.0%)。

  1. 总结 Conclusion

通过借鉴视觉-语言模型(Flamingo)的架构,利用"门控交叉注意力"机制,可以有效地将预训练的视觉特征(AV-HuBERT)注入到冻结的强力语音模型(Whisper)中。这种方法既保留了 Whisper在大规模数据上学到的鲁棒解码能力,又以较低的训练成本实现了抗噪的音视听识别和翻译。

相关推荐
lili-felicity11 小时前
CANN加速Whisper语音识别推理:流式处理与实时转录优化
人工智能·whisper·语音识别
觉醒大王12 小时前
哪些文章会被我拒稿?
论文阅读·笔记·深度学习·考研·自然语言处理·html·学习方法
觉醒大王15 小时前
强女思维:着急,是贪欲外显的相。
java·论文阅读·笔记·深度学习·学习·自然语言处理·学习方法
张较瘦_18 小时前
[论文阅读] AI | 用机器学习给深度学习库“体检”:大幅提升测试效率的新思路
论文阅读·人工智能·机器学习
m0_650108241 天前
IntNet:面向协同自动驾驶的通信驱动多智能体强化学习框架
论文阅读·marl·多智能体系统·网联自动驾驶·意图共享·自适应通讯·端到端协同
m0_650108242 天前
Raw2Drive:基于对齐世界模型的端到端自动驾驶强化学习方案
论文阅读·机器人·强化学习·端到端自动驾驶·双流架构·引导机制·mbrl自动驾驶
快降重科研小助手2 天前
前瞻与规范:AIGC降重API的技术演进与负责任使用
论文阅读·aigc·ai写作·降重·降ai·快降重
阿里巴啦2 天前
python+yt-dlp开源项目,支持 YouTube, Bilibili, TikTok/抖音,快手 等多个平台的视频/音频/字幕下载/ai摘要等功能
python·ffmpeg·whisper·音视频·视频处理·ai摘要·音视频转录
源于花海2 天前
IEEE TIE期刊论文学习——基于元学习与小样本重训练的锂离子电池健康状态估计方法
论文阅读·元学习·电池健康管理·并行网络·小样本重训练
普通网友2 天前
极致压缩:Whisper.cpp 量化版本清单与 ggml 格式模型下载
whisper