【论文笔记】Dense Connector for MLLMs

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : Dense Connector for MLLMs
作者 : Huanjin Yao, Wenhao Wu, Taojiannan Yang, YuXin Song, Mengxi Zhang, Haocheng Feng, Yifan Sun, Zhiheng Li, Wanli Ouyang, Jingdong Wang
发表 : NeurIPS 2024
arXiv : https://arxiv.org/abs/2405.13800

摘要

我们是否充分利用了多模态大型语言模型(MLLMs)中视觉编码器的潜力?近期MLLMs在多模态理解方面的卓越表现引起了学术界和工业界的广泛关注。

在当前的MLLM竞赛中,焦点似乎主要集中在语言方面。

我们见证了更大规模、更高质量的指令数据集的出现,以及更大规模LLMs的参与。

然而,对MLLMs使用的视觉信号的关注却寥寥无几,这些信号通常被认为是冻结的视觉编码器提取的最终高级特征。

在本文中,我们介绍了Dense Connector------一个简单、有效且即插即用的视觉-语言连接器,通过利用多层视觉特征,以最小的额外计算开销显著提升了现有的MLLMs。

此外,我们的模型仅通过图像训练,在视频理解方面也展示了显著的零样本能力。

在跨各种视觉编码器、图像分辨率、训练数据集规模、LLMs大小(2.7B→70B)以及MLLMs的多样化架构(例如LLaVA和Mini-Gemini)的实验结果中,验证了我们的方法的灵活性和可扩展性,在19个图像和视频基准测试中实现了最先进的性能。

我们希望这项工作将为未来的MLLM开发提供宝贵的经验,并作为基本模块。

代码开源在:https://github.com/HJYao00/DenseConnector

主要贡献

  • 我们提出了一种简单、有效且即插即用的Dense Connector,它以最小的额外计算开销增强了现有多语言语言模型(MLLM)的视觉表示。我们希望它能作为基本模块,持续为未来的MLLM带来益处。
  • 我们展示了我们的方法在各种视觉编码器、图像分辨率(336px→768px)、训练数据集规模、不同大小的LLMs(2B→70B)以及多样化的MLLMs架构(例如,LLaVA,Mini-Gemini)上的灵活性和可扩展性。
  • 我们的方法在11个图像基准测试中表现出色,并在8个视频基准测试中实现了最先进的结果,无需进行特定的视频调整。

方法

模型架构

基于LLaVA架构,将Projector替换为了Dense Connector模块。

Sparse Token Integration (STI)

e v = MLP ⁡ ( Concatenate ⁡ ( [ avg ⁡ ( V l 1 ) , ... , avg ⁡ ( V l K ) , V L ] , dim = token ) ) e_v = \operatorname{MLP}\left(\operatorname{Concatenate}\left([\operatorname{avg}(V_{l_1}), \ldots, \operatorname{avg}(V_{l_K}), V_L], \text{dim} = \text{token}\right)\right) ev=MLP(Concatenate([avg(Vl1),...,avg(VlK),VL],dim=token))

Sparse Channel Integration (SCI)

e v = MLP ⁡ ( Concatenate ⁡ ( [ V l 1 , ... , V l K , V L ] , dim = channel ) ) e_v = \operatorname{MLP}\left(\operatorname{Concatenate}\left([V_{l_1}, \ldots,V_{l_K}, V_L], \text{dim} = \text{channel}\right)\right) ev=MLP(Concatenate([Vl1,...,VlK,VL],dim=channel))

Dense Channel Integration (DCI)

G V g = 1 M ∑ i = ( g − 1 ) M + 1 g M V i , 1 ≤ g ≤ G . GV_{g}=\frac{1}{M}\sum_{i=(g-1) M+1}^{g M} V_{i},\quad 1\leq g\leq G. GVg=M1i=(g−1)M+1∑gMVi,1≤g≤G.

e v = MLP ⁡ ( Concatenate ⁡ ( [ G V 1 , ... , G V G , V L ] , dim = channel ) ) e_v = \operatorname{MLP}\left(\operatorname{Concatenate}\left([GV_{1}, \ldots,GV_{G}, V_L], \text{dim} = \text{channel}\right)\right) ev=MLP(Concatenate([GV1,...,GVG,VL],dim=channel))

实验

主实验

消融实验

总结

在这篇论文中,我们介绍了Dense Connector,这是一种新颖的即插即用模块,通过密集集成多层视觉特征来增强多语言语言模型(MLLMs)的视觉感知能力。

我们实例化了三种类型的Dense Connector,并在多样化的视觉编码器、LLMs和训练数据集上验证了其有效性,证明了在多个评估基准上性能的显著提升。

Dense Connector可以轻松集成到现有的MLLMs中。

在本工作中,我们将Dense Connector融入主流模型LLaVA和高分辨率方法Mini-Gemini,展示了其灵活性和泛化能力。

我们的三种Dense Connector实例不引入额外的参数,为进一步的探索留下了空间。

我们尚未找到一种有效的方法来引入额外的参数。

未来的研究将专注于发现更有效的方法来连接视觉和语言模型,以实现更好的模态对齐。

相关推荐
山北雨夜漫步4 分钟前
机器学习 Day18 Support Vector Machine ——最优美的机器学习算法
人工智能·算法·机器学习
正在走向自律7 分钟前
从0到1吃透卷积神经网络(CNN):原理与实战全解析
人工智能·神经网络·cnn
拓端研究室TRL10 分钟前
Python+AI提示词糖尿病预测融合模型:伯努利朴素贝叶斯、逻辑回归、决策树、随机森林、支持向量机SVM应用
人工智能·python·决策树·随机森林·逻辑回归
何双新23 分钟前
第8讲、Multi-Head Attention 的核心机制与实现细节
人工智能·transformer
moongoblin25 分钟前
协作赋能-1-制造业生产流程重构
大数据·人工智能·经验分享·制造
穿越光年27 分钟前
MCP实战:在扣子空间用扣子工作流MCP,一句话生成儿童故事rap视频
人工智能·音视频
Johny_Zhao1 小时前
AI+自动化测试系统方案:网络设备与网络应用智能测试
linux·网络·人工智能·python·网络安全·docker·ai·信息安全·云计算·ansible·shell·cisco·huawei·系统运维·itsm·华三·deepseek
Quieeeet1 小时前
【搭建Node-RED + MQTT Broker实现AI大模型交互】
人工智能·物联网·交互
想要成为计算机高手1 小时前
半成品的开源双系统VLA模型,OpenHelix-发表于2025.5.6
人工智能·深度学习·计算机视觉·自然语言处理·机器人·开源·vla
qq_368019661 小时前
人工智能、机器学习、深度学习定义与联系
人工智能·深度学习·机器学习