社区开放麦-颠覆性创新:多模态对话与精准区域分割

多模态大模型 (LMM) 能够同时处理多种类型的数据,如图像、文本、音频等,因此在自然语言处理、计算机视觉、语音识别等众多应用领域具有广泛的应用前景。然而,如何降低 LMM 构建的成本成为了一个热门研究话题。

为了解决这个问题,基于迁移学习的多模态大模型构建方法 VPGTrans 应运而生。VPGTrans 方法的主要思想是通过将预训练的视觉模型(如 ViT)和文本模型(如 GPT)进行迁移学习,以实现高效的 LMM 构建。具体而言,VPGTrans 借助迁移学习的方式,可以将类 BLIP-2 的 LMM 训练开销缩减到正常训练的10%(如从 2587 美元到 242 美元),且在多个任务上(如VQAv2,GQA)实现模型效果不降反升。此外,我们也会简单介绍在 LMM 组合区域分割方面的一些新尝试。

在本期社区开放麦中,我们特别邀请到新加坡国立大学 NExT++ 实验室博士张傲 带来《颠覆性创新:多模态对话与精准区域分割》分享,详细解读 VPGTrans 方法。

由于大语言模型的火爆,多模态大模型(LMM)也逐渐成为一个重要的研究方向。通过借助已有大语言模型的力量,LMM 在多模态理解任务中展示出丰富的知识,非凡的推理规划能力。但 LMM 的构建往往需要巨大的开销 (GPU 资源和大量数据)。于是我们提出了 VPGTrans 方法,可以通过迁移学习的方法实现高效的 LMM 构建。通过我们的方法,我们可以在模型性能不降甚至提升的情况下,实现训练开销的缩减(如从 2587 美元到 242 美元):

VPGTrans 方法具体包括两个阶段:

  • 在第一阶段,我们主要进行 projector 的初始化和热身训练。具体一点,我们通过训练一个词向量转换器来作为projector 的初始化,并采用 5 倍学习率来对 projector 进行热身训练。

  • 在第二阶段,我们继续进行常规的预训练。

通过我们的 VPGTrans 方法,我们的模型可以实现 GPU 时长的大幅度缩减(如单卡 631.5 小时到 59.0 小时),并且在 VQAv2,GQA 和 OKVQA 数据集实现更高或相仿的效果:

此外,我们 VPGTrans 构建的 VL-Vicuna 也在人工评测中取得了不错的效果:

在 VPGTrans 之后,我们并不满足于仅仅全图理解。我们希望进一步赋予 LMM 模型区域理解的能力。于是,我们初步探索并提出了一种 pixel2emb 方法来对位置输入和输出进行建模:

根据该方法,我们初步构建了 NExT-Chat 模型。NExT-Chat 模型既可以接受区域内容作为输入,也可以输出提及区域的检测框和分割掩膜 (detection + segmentation)。

想了解更多的具体内容,快来预约本周四晚 20:00 的社区开放麦直播吧~

相关工作/ 资料/ 链接

VPGTrans: VPGTrans: Transfer Visual Prompt Generator across LLMs (NeurIPS 2023)

主页(paper+code):

vpgtrans.github.io/

NExT-Chat: An LMM for Chat, Detection and Segmentation (早期技术报告)

主页(paper+code+demo):

next-chatv.github.io/

交流群

同时为了方便大家交流沟通,我们建立了语言大模型相关的交流群,大佬也在群里哦,提供与大佬 1v1 的机会,扫码即可入群~

相关推荐
牛客企业服务13 分钟前
2025年AI面试推荐榜单,数字化招聘转型优选
人工智能·python·算法·面试·职场和发展·金融·求职招聘
视觉语言导航44 分钟前
RAL-2025 | 清华大学数字孪生驱动的机器人视觉导航!VR-Robo:面向视觉机器人导航与运动的现实-模拟-现实框架
人工智能·深度学习·机器人·具身智能
redreamSo1 小时前
AI Daily | AI日报:马斯克Grok 4跑分泄露,有望改写LLM格局; 猫猫话术让大模型数学答错率翻3倍; 安克创新All in AI,代码采纳率破50%
程序员·aigc·资讯
**梯度已爆炸**1 小时前
自然语言处理入门
人工智能·自然语言处理
ctrlworks1 小时前
楼宇自控核心功能:实时监控设备运行,快速诊断故障,赋能设备寿命延长
人工智能·ba系统厂商·楼宇自控系统厂家·ibms系统厂家·建筑管理系统厂家·能耗监测系统厂家
BFT白芙堂2 小时前
睿尔曼系列机器人——以创新驱动未来,重塑智能协作新生态(上)
人工智能·机器学习·机器人·协作机器人·复合机器人·睿尔曼机器人
aneasystone本尊2 小时前
使用 MCP 让 Claude Code 集成外部工具
人工智能
静心问道2 小时前
SEW:无监督预训练在语音识别中的性能-效率权衡
人工智能·语音识别
羊小猪~~2 小时前
【NLP入门系列五】中文文本分类案例
人工智能·深度学习·考研·机器学习·自然语言处理·分类·数据挖掘
xwz小王子2 小时前
从LLM到WM:大语言模型如何进化成具身世界模型?
人工智能·语言模型·自然语言处理