Llama-AVSR论文阅读

2025.3

1.摘要

background

 多模态大语言模型(MLLMs)在多模态理解方面表现出色。在音频和语音领域,LLM结合音频编码器已在自动语音识别(ASR)上取得了SOTA效果 。

 然而,视觉和视听语音识别(VSR/AVSR)------这类利用唇部运动信息来增强抗噪能力的任务------却鲜有研究关注如何利用LLM来实现 。

 现有的AVSR方法通常依赖昂贵的大规模标注数据(如100K小时),或者复杂的自监督学习流程 。

innovation

 提出了 Llama-AVSR,这是一个利用预训练LLM进行ASR、VSR和AVSR任务的新框架 。

参数高效 :保持预训练的音频/视频编码器和LLM冻结(frozen),仅训练模态特定的投影层(Projectors)和LLM中的LoRA模块 。

SOTA****性能 :在最大的公共AVSR基准数据集LRS3上,ASR和AVSR任务均取得了新的SOTA结果(WER分别为0.79%和0.77%) 。

关键发现 :揭示了预训练编码器的选择、LoRA的集成方式以及**模态感知压缩率(modality-aware compression rates)**是性能与效率权衡的关键因素 。

  1. 方法 Method

总分结构汇报:

该方法采用基于Decoder-only的架构 15,Pipeline如图1所示 16。核心思想是将音频和视频特征转化为LLM可理解的Token,与文本Token拼接后输入LLM进行自回归生成。

具体组件及流程

    1. 模态特定的预训练编码器 (Modality-specific Pre-trained Encoders)

输入:原始音频波形 和/或 嘴部ROI视频帧 17。

处理 :使用 Whisper 提取音频特征,使用 AV-HuBERT 提取视频特征 18。

状态:编码器在训练期间保持冻结。仅在VSR任务中,视频编码器会加入一个可训练的LoRA模块 19。

    1. 模态特定的投影器 (Modality-specific Projector)

功能:连接编码器和LLM,同时负责**降采样(Downsampling)**以减少计算量 20202020。

操作:首先将 K 个连续特征沿隐藏层维度拼接(压缩率为 K),然后通过两个线性层映射到LLM的嵌入空间。

输出:音频Token (X_aud) 和 视频Token (X_vid)。

    1. 大语言模型 (LLM)

模型:主要使用 Llama 3.1-8B(也探索了TinyLlama, Llama2等) 23。

输入:拼接后的序列:[Prompt + Audio/Video Tokens + Text Tokens]

微调方式 :LLM主体冻结,仅训练 LoRA 模块 25。

输出:自回归生成的文本转录 Y。

  1. 实验 Experimental Results

数据集

评测/训练核心:LRS3 (433小时标注视频) 28。

扩展数据:LRS3 + VoxCeleb2 (共1756小时,通过Whisper伪标注) 29。

低资源设置:LRS3 trainval set (30小时) 30。

主要实验结论

  1. ASR性能 :Llama-AVSR在1756小时数据下达到 0.79% WER,刷新SOTA。仅用433小时数据时(1.1% WER)也优于全量微调Whisper-Large(2.3% WER)的方法,且参数量极少(42M vs 1.5B)31313131。

  2. VSR性能:在使用433小时数据时,优于之前的LLM基线(VSP-LLM),主要得益于使用了AV-HuBERT作为视觉编码器 32323232。

  3. AVSR性能 :达到 0.77% WER (1756h)。视频模态的引入显著提高了噪声环境下的鲁棒性 33333333。

  4. 压缩率分析:音频Token可以承受较高的压缩率(K=5)而不掉点;视频Token对压缩率敏感,K值增大性能下降明显 34343434。

  5. 总结 Conclusion

利用现有的高性能预训练大模型(如Llama 3.1)和专用编码器(Whisper, AV-HuBERT),通过极少量的参数微调(LoRA + Projector),即可在视听语音识别任务上达到超越传统全量训练方法的SOTA性能 。

相关推荐
阿正的梦工坊2 小时前
论文阅读WebDancer: Towards Autonomous Information Seeking Agency
论文阅读·人工智能·深度学习·机器学习·llm
cqbzcsq16 小时前
蛋白质功能预测模型DAMPE论文阅读报告
论文阅读·人工智能·python·深度学习·生物信息学
Dragon水魅20 小时前
LLaMA Factory 详解
llama
禁默1 天前
在昇腾 NPU上跑通 Llama 3-8B:从环境部署到 100% 算力满载
llama·昇腾npu·atlas 800t
红苕稀饭6661 天前
MLCA-AVSR论文阅读
论文阅读
0x2111 天前
[论文阅读]Secure Retrieval-Augmented Generation against Poisoning Attacks
论文阅读
红苕稀饭6661 天前
AV-HuBERT论文阅读
论文阅读
CV-杨帆1 天前
论文阅读:ACL 2025 Jailbreaking? One Step Is Enough!
论文阅读
有Li1 天前
PISCO:用于改进动态MRI神经隐式k空间表示的自监督k空间正则化文献速递-医疗影像分割与目标检测最新技术
论文阅读·深度学习·文献·医学生