Llama-AVSR论文阅读

2025.3

1.摘要

background

 多模态大语言模型(MLLMs)在多模态理解方面表现出色。在音频和语音领域,LLM结合音频编码器已在自动语音识别(ASR)上取得了SOTA效果 。

 然而,视觉和视听语音识别(VSR/AVSR)------这类利用唇部运动信息来增强抗噪能力的任务------却鲜有研究关注如何利用LLM来实现 。

 现有的AVSR方法通常依赖昂贵的大规模标注数据(如100K小时),或者复杂的自监督学习流程 。

innovation

 提出了 Llama-AVSR,这是一个利用预训练LLM进行ASR、VSR和AVSR任务的新框架 。

参数高效 :保持预训练的音频/视频编码器和LLM冻结(frozen),仅训练模态特定的投影层(Projectors)和LLM中的LoRA模块 。

SOTA****性能 :在最大的公共AVSR基准数据集LRS3上,ASR和AVSR任务均取得了新的SOTA结果(WER分别为0.79%和0.77%) 。

关键发现 :揭示了预训练编码器的选择、LoRA的集成方式以及**模态感知压缩率(modality-aware compression rates)**是性能与效率权衡的关键因素 。

  1. 方法 Method

总分结构汇报:

该方法采用基于Decoder-only的架构 15,Pipeline如图1所示 16。核心思想是将音频和视频特征转化为LLM可理解的Token,与文本Token拼接后输入LLM进行自回归生成。

具体组件及流程

    1. 模态特定的预训练编码器 (Modality-specific Pre-trained Encoders)

输入:原始音频波形 和/或 嘴部ROI视频帧 17。

处理 :使用 Whisper 提取音频特征,使用 AV-HuBERT 提取视频特征 18。

状态:编码器在训练期间保持冻结。仅在VSR任务中,视频编码器会加入一个可训练的LoRA模块 19。

    1. 模态特定的投影器 (Modality-specific Projector)

功能:连接编码器和LLM,同时负责**降采样(Downsampling)**以减少计算量 20202020。

操作:首先将 K 个连续特征沿隐藏层维度拼接(压缩率为 K),然后通过两个线性层映射到LLM的嵌入空间。

输出:音频Token (X_aud) 和 视频Token (X_vid)。

    1. 大语言模型 (LLM)

模型:主要使用 Llama 3.1-8B(也探索了TinyLlama, Llama2等) 23。

输入:拼接后的序列:[Prompt + Audio/Video Tokens + Text Tokens]

微调方式 :LLM主体冻结,仅训练 LoRA 模块 25。

输出:自回归生成的文本转录 Y。

  1. 实验 Experimental Results

数据集

评测/训练核心:LRS3 (433小时标注视频) 28。

扩展数据:LRS3 + VoxCeleb2 (共1756小时,通过Whisper伪标注) 29。

低资源设置:LRS3 trainval set (30小时) 30。

主要实验结论

  1. ASR性能 :Llama-AVSR在1756小时数据下达到 0.79% WER,刷新SOTA。仅用433小时数据时(1.1% WER)也优于全量微调Whisper-Large(2.3% WER)的方法,且参数量极少(42M vs 1.5B)31313131。

  2. VSR性能:在使用433小时数据时,优于之前的LLM基线(VSP-LLM),主要得益于使用了AV-HuBERT作为视觉编码器 32323232。

  3. AVSR性能 :达到 0.77% WER (1756h)。视频模态的引入显著提高了噪声环境下的鲁棒性 33333333。

  4. 压缩率分析:音频Token可以承受较高的压缩率(K=5)而不掉点;视频Token对压缩率敏感,K值增大性能下降明显 34343434。

  5. 总结 Conclusion

利用现有的高性能预训练大模型(如Llama 3.1)和专用编码器(Whisper, AV-HuBERT),通过极少量的参数微调(LoRA + Projector),即可在视听语音识别任务上达到超越传统全量训练方法的SOTA性能 。

相关推荐
DuHz10 小时前
自动驾驶雷达干扰缓解:探索主动策略论文精读
论文阅读·人工智能·算法·机器学习·自动驾驶·汽车·信号处理
Aaron_94512 小时前
LLaMA Factory:一站式大语言模型高效微调框架解析
人工智能·语言模型·llama
m0_6501082412 小时前
Alpamayo-R1:打通推理与动作预测,迈向稳健 L4 级自动驾驶
论文阅读·端到端自动驾驶·融合结构化因果推理与车辆控制·长尾场景稳健性·开环轨迹预测·闭环驾驶安全
m0_650108241 天前
Diffusion-Planner:基于扩散模型的自动驾驶灵活引导闭环规划
论文阅读·自动驾驶·扩散模型·联合预测与规划建模·分类器引导机制
StfinnWu1 天前
论文阅读 Deep Residual Learning for Image Recognition
论文阅读·人工智能·深度学习
PeterClerk1 天前
计算机视觉(CV)期刊(按 CCF 推荐目录 A/B/C + 交叉方向整理
论文阅读·图像处理·人工智能·深度学习·搜索引擎·计算机视觉·计算机期刊
小呀小萝卜儿1 天前
2026-01-14 学习记录--LLM-申请Hugging Face 访问令牌(以Meta-Llama-3.1-8B-Instruct为例)
学习·语言模型·llama
I'm Salted Fish1 天前
基于LLaMA-Factory大语言模型微调实战-训练一个属于自己的大模型
人工智能·语言模型·llama
不爱学英文的码字机器1 天前
数据不出域!用 Atlas 800T 激活 Llama-3,打造安全可控的 QA 生产工厂
安全·llama
youcans_2 天前
【DeepSeek论文精读】17. 通过可扩展查找的条件记忆:大语言模型稀疏化的新维度
论文阅读·人工智能·语言模型·长短时记忆网络·稀疏