Llama-AVSR论文阅读

2025.3

1.摘要

background

 多模态大语言模型（MLLMs）在多模态理解方面表现出色。在音频和语音领域，LLM结合音频编码器已在自动语音识别（ASR）上取得了SOTA效果。

 然而，视觉和视听语音识别（VSR/AVSR）------这类利用唇部运动信息来增强抗噪能力的任务------却鲜有研究关注如何利用LLM来实现。

 现有的AVSR方法通常依赖昂贵的大规模标注数据（如100K小时），或者复杂的自监督学习流程。

innovation

 提出了 Llama-AVSR，这是一个利用预训练LLM进行ASR、VSR和AVSR任务的新框架。

 参数高效 ：保持预训练的音频/视频编码器和LLM冻结（frozen），仅训练模态特定的投影层（Projectors）和LLM中的LoRA模块。

 SOTA****性能 ：在最大的公共AVSR基准数据集LRS3上，ASR和AVSR任务均取得了新的SOTA结果（WER分别为0.79%和0.77%）。

 关键发现 ：揭示了预训练编码器的选择、LoRA的集成方式以及**模态感知压缩率（modality-aware compression rates）**是性能与效率权衡的关键因素。

总分结构汇报：

该方法采用基于Decoder-only的架构 15，Pipeline如图1所示 16。核心思想是将音频和视频特征转化为LLM可理解的Token，与文本Token拼接后输入LLM进行自回归生成。

具体组件及流程：

输入：原始音频波形和/或嘴部ROI视频帧 17。

处理：使用 Whisper 提取音频特征，使用 AV-HuBERT 提取视频特征 18。

状态：编码器在训练期间保持冻结。仅在VSR任务中，视频编码器会加入一个可训练的LoRA模块 19。

功能：连接编码器和LLM，同时负责**降采样（Downsampling）**以减少计算量 20202020。

操作：首先将 K 个连续特征沿隐藏层维度拼接（压缩率为 K），然后通过两个线性层映射到LLM的嵌入空间。

输出：音频Token (X_aud) 和视频Token (X_vid)。

模型：主要使用 Llama 3.1-8B（也探索了TinyLlama, Llama2等） 23。

输入：拼接后的序列：[Prompt + Audio/Video Tokens + Text Tokens]

微调方式 ：LLM主体冻结，仅训练 LoRA 模块 25。

输出：自回归生成的文本转录 Y。

 数据集：

评测/训练核心：LRS3 (433小时标注视频) 28。

扩展数据：LRS3 + VoxCeleb2 (共1756小时，通过Whisper伪标注) 29。

低资源设置：LRS3 trainval set (30小时) 30。

 主要实验结论：

ASR性能 ：Llama-AVSR在1756小时数据下达到 0.79% WER，刷新SOTA。仅用433小时数据时（1.1% WER）也优于全量微调Whisper-Large（2.3% WER）的方法，且参数量极少（42M vs 1.5B）31313131。
VSR性能：在使用433小时数据时，优于之前的LLM基线（VSP-LLM），主要得益于使用了AV-HuBERT作为视觉编码器 32323232。
AVSR性能 ：达到 0.77% WER (1756h)。视频模态的引入显著提高了噪声环境下的鲁棒性 33333333。
压缩率分析：音频Token可以承受较高的压缩率（ $K=5$ ）而不掉点；视频Token对压缩率敏感， $K$ 值增大性能下降明显 34343434。
总结 Conclusion

利用现有的高性能预训练大模型（如Llama 3.1）和专用编码器（Whisper, AV-HuBERT），通过极少量的参数微调（LoRA + Projector），即可在视听语音识别任务上达到超越传统全量训练方法的SOTA性能。