Llama-AVSR论文阅读

2025.3

1.摘要

background

 多模态大语言模型(MLLMs)在多模态理解方面表现出色。在音频和语音领域,LLM结合音频编码器已在自动语音识别(ASR)上取得了SOTA效果 。

 然而,视觉和视听语音识别(VSR/AVSR)------这类利用唇部运动信息来增强抗噪能力的任务------却鲜有研究关注如何利用LLM来实现 。

 现有的AVSR方法通常依赖昂贵的大规模标注数据(如100K小时),或者复杂的自监督学习流程 。

innovation

 提出了 Llama-AVSR,这是一个利用预训练LLM进行ASR、VSR和AVSR任务的新框架 。

参数高效 :保持预训练的音频/视频编码器和LLM冻结(frozen),仅训练模态特定的投影层(Projectors)和LLM中的LoRA模块 。

SOTA****性能 :在最大的公共AVSR基准数据集LRS3上,ASR和AVSR任务均取得了新的SOTA结果(WER分别为0.79%和0.77%) 。

关键发现 :揭示了预训练编码器的选择、LoRA的集成方式以及**模态感知压缩率(modality-aware compression rates)**是性能与效率权衡的关键因素 。

  1. 方法 Method

总分结构汇报:

该方法采用基于Decoder-only的架构 15,Pipeline如图1所示 16。核心思想是将音频和视频特征转化为LLM可理解的Token,与文本Token拼接后输入LLM进行自回归生成。

具体组件及流程

    1. 模态特定的预训练编码器 (Modality-specific Pre-trained Encoders)

输入:原始音频波形 和/或 嘴部ROI视频帧 17。

处理 :使用 Whisper 提取音频特征,使用 AV-HuBERT 提取视频特征 18。

状态:编码器在训练期间保持冻结。仅在VSR任务中,视频编码器会加入一个可训练的LoRA模块 19。

    1. 模态特定的投影器 (Modality-specific Projector)

功能:连接编码器和LLM,同时负责**降采样(Downsampling)**以减少计算量 20202020。

操作:首先将 K 个连续特征沿隐藏层维度拼接(压缩率为 K),然后通过两个线性层映射到LLM的嵌入空间。

输出:音频Token (X_aud) 和 视频Token (X_vid)。

    1. 大语言模型 (LLM)

模型:主要使用 Llama 3.1-8B(也探索了TinyLlama, Llama2等) 23。

输入:拼接后的序列:[Prompt + Audio/Video Tokens + Text Tokens]

微调方式 :LLM主体冻结,仅训练 LoRA 模块 25。

输出:自回归生成的文本转录 Y。

  1. 实验 Experimental Results

数据集

评测/训练核心:LRS3 (433小时标注视频) 28。

扩展数据:LRS3 + VoxCeleb2 (共1756小时,通过Whisper伪标注) 29。

低资源设置:LRS3 trainval set (30小时) 30。

主要实验结论

  1. ASR性能 :Llama-AVSR在1756小时数据下达到 0.79% WER,刷新SOTA。仅用433小时数据时(1.1% WER)也优于全量微调Whisper-Large(2.3% WER)的方法,且参数量极少(42M vs 1.5B)31313131。

  2. VSR性能:在使用433小时数据时,优于之前的LLM基线(VSP-LLM),主要得益于使用了AV-HuBERT作为视觉编码器 32323232。

  3. AVSR性能 :达到 0.77% WER (1756h)。视频模态的引入显著提高了噪声环境下的鲁棒性 33333333。

  4. 压缩率分析:音频Token可以承受较高的压缩率(K=5)而不掉点;视频Token对压缩率敏感,K值增大性能下降明显 34343434。

  5. 总结 Conclusion

利用现有的高性能预训练大模型(如Llama 3.1)和专用编码器(Whisper, AV-HuBERT),通过极少量的参数微调(LoRA + Projector),即可在视听语音识别任务上达到超越传统全量训练方法的SOTA性能 。

相关推荐
薛定e的猫咪4 天前
【AAAI 2025】基于扩散模型的昂贵多目标贝叶斯优化
论文阅读·人工智能·算法
ECHO飞跃 0124 天前
Unity2019 本地推理 通义千问0.5-1.5B微调导入
人工智能·深度学习·unity·llama
黑白极客4 天前
ACP大模型认证刷题工具开源,助力高效备考
java·ai·github·llama·认证
YMWM_4 天前
论文阅读“SimVLA: A Simple VLA Baseline for Robotic Manipulation“
论文阅读·vla
m0_650108244 天前
VLN-Zero:零样本机器人导航的神经符号视觉语言规划框架
论文阅读·零样本·机器人导航·视觉语言导航·未知环境快速适配·符号化场景图·vlm推理
迷之程序员4 天前
llama-cpp-python用法,模型加载gpu踩坑全记录
开发语言·python·llama
晓山清5 天前
【论文阅读】Self-supervised Learning of Person-specific Facial Dynamics for APR
论文阅读
张较瘦_5 天前
[论文阅读] AI + 教育 | 不是单纯看视频!软件工程培训的游戏化融合之道
论文阅读·人工智能·软件工程
~kiss~5 天前
Ollama 底层的 llama.cpp 和 GGUF
llama
张较瘦_5 天前
[论文阅读] AI + 软件工程 | 用统计置信度破解AI功能正确性评估难题——SCFC方法详解
论文阅读·人工智能·软件工程