CV-MLLM经典论文解读| Link-Context Learning for Multimodal LLMs面向多模态大型语言模型的链接上下文学习

论文标题:

Link-Context Learning for Multimodal LLMs

面向多模态大型语言模型的链接上下文学习

论文链接:

Link-Context Learning for Multimodal LLMs论文下载

论文作者:

Yan Tai, Weichen Fan, Zhao Zhang, Feng Zhu, Rui Zhao, Ziwei Liu

内容简介:

这篇论文提出了一种新的学习方法------链式上下文学习(Link-Context Learning, LCL),旨在增强多模态大型语言模型(MLLMs)在对话中理解和应用新概念的能力。通过强调"从因果关系中推理",LCL超越了传统的上下文学习(In-Context Learning, ICL),通过加强支持集和查询集之间的因果关系,使MLLMs能够更有效地识别未见图像和理解新概念。为了评估这一新方法,作者引入了ISEKAI数据集,该数据集包含专门设计的未见生成图像-标签对,用于链式上下文学习。广泛的实验表明,LCL-MLLM在新概念的链式上下文学习能力上优于传统的MLLMs。

关键点:

1.链式上下文学习(LCL):

  • 引入了一种新的少样本学习设置,要求MLLMs在对话中吸收新概念,并保留这些知识以准确回答问题。
  • LCL通过在支持集和查询集之间建立因果链接,增强了模型对源和目标之间因果关系的理解。

2.ISEKAI数据集:

  • 为了评估MLLMs在LCL中的表现,作者发布了ISEKAI数据集,包含未见图像和全新概念。
  • 数据集的图像由Stable Diffusion和Midjourney生成,标签或概念是虚构的,以确保MLLMs完全未见。

3.实验结果:

  • 通过在ISEKAI数据集上的实验,展示了LCL方法的有效性,与现有的MLLMs相比,LCL-MLLM在处理完全未知图像的场景中表现出色。
  • 在ImageNet-100数据集上的实验也证实了LCL方法的有效性,该数据集包含100个训练阶段未见过的类别。

4.训练策略:

  • 论文提出了不同的训练策略,包括[2-way]、[2-way-random]、[2-way-weight]和[mix]策略,以提升模型在不同情况下的表现。
  • [mix]策略通过结合[2-way]任务和Shikra的原始任务,提升了模型的泛化能力。

CV-MLLM必读论文合集:

CV-MMLM必读论文合集

希望这些论文能帮到你!如果觉得有用,记得点赞关注哦~ 后续还会更新更多论文合集!!

代码链接:

论文中提到,代码和数据将在以下链接发布:https://github.com/isekai-portal/Link-Context-Learning

相关推荐
西电研梦6 分钟前
西安电子科技大学初/复试笔试、面试、机试成绩占比
人工智能·考研·面试·职场和发展·研究生·西电·西安电子科技大学
说私域11 分钟前
开源 AI 智能名片 2+1 链动模式商城小程序在商业营销中的心理博弈与策略应用
人工智能·小程序
说私域13 分钟前
开源AI智能名片2+1链动模式S2B2C商城小程序在商业流量获取中的应用研究
人工智能·小程序
island131423 分钟前
【计算机组成原理课程设计】:实验0 ROM仿真、实验1 验证74L181运算和逻辑功能、实验2 运算器 2、实验 3 跑马灯、实验4 模拟微程序实现指令
机器学习·课程设计·计算机组成原理
B站计算机毕业设计超人43 分钟前
计算机毕业设计PyHive+Hadoop深圳共享单车预测系统 共享单车数据分析可视化大屏 共享单车爬虫 共享单车数据仓库 机器学习 深度学习
大数据·hadoop·python·深度学习·机器学习·数据分析·数据可视化
智识世界Intelligence1 小时前
美国宏观经济基础框架梳理
经验分享·笔记·深度学习·信息可视化·学习方法
huake61 小时前
探索大型语言模型新架构:从 MoE 到 MoA
人工智能·程序人生
全域观察1 小时前
读“2024 A16Z AI 应用精选清单”有感——2025AI执行力之年
人工智能·新媒体运营·软件工程·内容运营·程序员创富
DX_水位流量监测1 小时前
城市供水管网多普勒超声波流量计,保障供水安全
大数据·运维·服务器·网络·人工智能·安全
每天一杯美式1 小时前
IoT-多功能裂缝计
网络·人工智能·物联网