清华和字节联合推出的视频理解大模型video-SALMONN(ICML 2024)

video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models

论文信息

paper:https://arxiv.org/abs/2406.15704

code:https://github.com/bytedance/SALMONN/
AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024
video-SALMONN:语音增强的端到端视听大语言模型

论文概要

  1. 提出一个端到端的视频理解多模态大模型,可以同时输入视频的语音、音频、视频帧,输出视频描述。
  2. 论文框架包含三点设计:1)音视频在时间维度上的对齐模块;2)多分辨率因果Q-Former;3)多样性损失函数和混合未配对音视频数据训练。

摘要翻译

作为使用音频-视觉大型语言模型(av-LLMs)进行视频理解的一个关键但研究不足的方面,语音理解是至关重要的。本文提出了video-SALMONN,这是一个单一的端到端av-LLM,用于视频处理,它不仅能理解视觉帧序列、音频事件和音乐,还能理解语音。为了获得语音理解所需的细粒度时间信息,同时保持对其他视频元素的高效处理,本文提出了一种新颖的多分辨率因果Q-Former(MRC Q-Former)结构,以连接预训练的音频-视觉编码器和骨干大型语言模型。此外,为了避免帧或模态的主导,我们提出了专门的训练方法,包括多样性损失和非成对视听混合训练方案。在引入的语音-视听评估基准(SAVE)上,video-SALMONN在视频QA任务上实现了超过25%的绝对准确率提升,在包含人类语音的视听QA任务上实现了超过30%的绝对准确率提升。此外,video-SALMONN在前所未有的任务上展示了卓越的视频理解和推理能力。我们的训练代码和模型检查点可在https://github.com/bytedance/SALMONN/ 上获得。

技术细节

输入处理

1)分别采用Whisper编码器(Speech Encoder)和BEATs编码器(Audio Encoder)来对同一音频流中的语音和非语音音频进行编码,采样频率为50Hz

2)采用InstructBLIP中的视觉编码器(Visual Encoder)来对视频中的帧进行独立地编码,视频帧采样频率为2Hz,即1秒2帧

音视频对齐

对应图中灰色块(Temporal Fine-grained Synchronisation)

按照AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024中的解释,音频编码器每1秒音频对应50个向量 ,而视频编码器每1秒视频2帧,对应64个向量

因此,三个序列在时间维度上,以视频帧为基准每0.5秒对齐并拼接一次(temporal fine-grained synchronisation),因为语音音频序列略短于视觉序列,短的部分加上zero padding。

MRC Q-Former

多分辨率因果Q-Former对应上图中绿色块

1)首先在特征维度上,将三个向量进行拼接,也就是论文中的公式(1)

2)采用不同的步长(即不同的分辨率)对序列进行Q-Former(注意力机制)计算。以图2为例(假设视频的序列长度为100),在高分辨率下,步长k取5,query取2,则会产生一个长度为(100/5)*2=40的向量输出。在低分辨率下,步长k取25,query取10,则最终也会产生一个长度为(100/25)*10=40的向量输出,这对应论文中的公式(2)

3)Q-Former中的注意力机制使用了mask机制,如图3所示,即前面的序列不能看见后面的序列信息

4)对每个不同分辨率Q-Former的输出向量进行一个线性映射后再进行加和,得到最终的一个向量输出,这对应论文中的公式(4)

5)最后将Q-Former输出的向量结合文本prompt一起送入大语言模型中,对应论文中的公式(5)

论文中也解释了这种多分辨率划窗设计的好处:

滑动窗口设计使得输入序列的长度可以根据输入特征序列的长度而变化。因此,与在整个序列上使用单一的Q-Former相比,它在保留信息的程度与计算和存储成本之间实现了更好的平衡。

此外,论文中也提到了不同分辨率的Q-Former的参数是共享的

在应用较小窗口以获得更细粒度的时间尺度时,会使用较少的查询向量来减少信息容量,反之亦然。请注意,尽管对于不同的分辨率保持查询向量的不同,但MRC Q-Former的其余参数在所有分辨率级别上都是共享的,因为模态对齐的任务是相同的。

训练策略

首先提出了一个diversity loss,即论文中的公式(6),该loss的设计目的是使同一个分辨率下Q-Former输出的向量彼此不相近,即作者希望每个输出的向量能表征不同的信息。

原文是这样解释的:

视频问答(video QA)等视频任务的训练数据通常只需要一到两个关键帧,而输出查询往往倾向于重复捕捉相同的信息。因此,提出了一种新颖的多样性损失,以鼓励MRC Q-Former提取输入序列的更多不同方面。

请注意,多样性损失仅在低分辨率级别上需要,因为在这些级别上窗口中有足够的帧来提取多样化的信息。

最后,为了避免出现模态主导的问题,论文采用了部分音视频不配对的训练数据,来迫使模型是视频或者音频中来学习。

原文是这样说的:

此外,为了避免视频中的模态主导现象,除了少量成对的音视频数据外,我们提出了一种混合训练方案,即在训练集中的一部分增加非成对的音视频数据,并在提示中结合音频和视频的原始任务。这样,模型就被强制要求从音频和视频输入中提取信息,而不是依赖于某个主导模态。这种策略改善了不同模态之间的平衡,并是导致音视频理解和共同推理能力的关键因素。

相关推荐
AI_小站2 天前
多模态大模型微调实践!PAI+LLaMA Factory搭建AI导游
人工智能·程序人生·语言模型·大模型·llm·产品经理·多模态大模型
v_JULY_v3 天前
多模态PaliGemma——Google推出的基于SigLIP和Gemma的视觉语言模型
多模态大模型·gemma·vlm·paligemma·siglip
小李飞刀李寻欢5 天前
ffmpeg 提取mp4文件中的音频文件并保存
ffmpeg·音视频·音频·视频·audio
OpenAppAI5 天前
《Qwen2-VL》论文精读【上】:发表于2024年10月 Qwen2-VL 迅速崛起 | 性能与GPT-4o和Claude3.5相当
多模态大模型·qwen2-vl
Mac@分享吧7 天前
Topaz Video AI for Mac 视频无损放大软件安装教程【保姆级,操作简单轻松上手】
macos·音视频·视频·topaz video ai·视频无损放大·topaz video·视频放大
欣慰的三叶草(● ̄(エ) ̄●)8 天前
Topaz Video AI for Mac 视频无损放大软件安装教程【保姆级,操作简单轻松上手】
macos·音视频·视频·topaz video ai·视频无损放大·topaz video·视频放大
OpenGVLab8 天前
基于华为昇腾910B,实战InternVL2-8B模型推理
人工智能·深度学习·多模态大模型
程序员阳哥shen1616119 天前
短视频矩阵系统源码开发优势,短视频矩阵系统oem部署
矩阵·视频·源代码管理
程序员阳哥shen16161111 天前
抖音短视频矩阵源码开发/抖音矩阵系统OEM搭建/短视频源码开发
大数据·人工智能·矩阵·视频·源代码管理
hi9411 天前
基于KV260的基础视频链路通路(MIPI+Demosaic+VDMA)
fpga开发·视频·1024程序员节·mipi·vdma