少样本学习论文分享:多模态和类增量学习

Multimodal Parameter-Efficient Few-Shot Class Incremental Learning

一、背景

本文的背景是三个关键挑战的交汇点,模拟了现实世界AI系统需要持续学习的场景:

类增量学习:

模型需要在不遗忘旧类别知识的情况下,持续学习新的类别。例如,一个动物分类器已经学会了"猫"和"狗",现在要学习"兔子",但不能忘记如何识别猫和狗。核心挑战是灾难性遗忘。

少样本学习:

新增的类别只有极少数标注样本(例如,每个新类只有1-5张图片)。这加大了学习的难度,因为模型很难从少量数据中充分学习新类的特征,同时更容易因微调而产生过拟合,进而加剧对旧类的遗忘。

多模态学习:

模型利用多种类型的数据(如图像和文本)进行学习。例如,使用CLIP这样的预训练模型,它天然理解图像和文本的对应关系。这为解决上述挑战提供了新的可能,因为文本描述可以作为强大的先验知识。

参数高效微调:

随着模型变得越来越大(如大型预训练模型),在每一个新任务上全参数微调变得计算成本高昂且不切实际。PEFT方法(如Adapter, LoRA, Prompt Tuning)旨在仅微调模型的一小部分参数,来适应新任务,同时保持模型的主要部分不变。

二、现有研究的局限性

将以上挑战结合起来看,现有方法存在明显不足:

单一模态方法的瓶颈:

传统的类增量学习或少样本增量学习方法大多基于单模态(通常是图像)。它们缺乏利用文本等额外模态信息来稳定学习过程、缓解遗忘的能力。当数据极少时,单模态信息本身是不足的。

多模态模型使用方式低效:

即使使用了多模态模型(如CLIP),现有增量学习方法可能仍沿用旧思路,比如只微调图像编码器,或者进行简单的全参数微调。这既浪费了文本模态的语义引导潜力,又可能导致计算效率低下和严重的跨任务干扰(微调新类时容易破坏模型原有的跨模态对齐)。

灾难性遗忘与过拟合的叠加:

在少样本类增量场景下,灾难性遗忘和过拟合问题会相互加剧。用极少的样本去微调一个大型模型,极易使模型过度适应新样本的细节,从而迅速偏离之前学到的、关于旧类的通用表示。

三、本文创新性

本文的创新性在于系统性地整合了上述四个方向,提出一个统一的、高效的解决方案。

核心思想:

利用多模态先验知识(特别是文本的语义信息),通过参数高效微调策略,来实现稳健的少样本类增量学习。

创新融合:

它不是简单地将现有技术堆砌,而是设计了一种机制,使得文本模态在整个增量学习过程中持续地充当"稳定器"和"知识库"的角色,并通过PEFT来最小化对模型核心知识的破坏。

四、技术亮点

模型设计很可能包含以下关键组件:

基于预训练多模态模型的架构:

以CLIP之类的模型作为基础骨架,包含一个图像编码器和一个文本编码器。

参数高效的增量更新机制:

不是微调整个CLIP模型,而是采用PEFT技术。可能的方法包括:

提示学习:

为图像编码器和文本编码器引入可学习的提示令牌。每个新任务(一组新类别)都学习一组新的提示,而模型主干参数保持冻结。这样,不同任务的知识被隔离在各自的提示参数中,极大减少了遗忘。

Adapter模块:

在CLIP的编码器中插入小的Adapter网络,增量学习时只训练这些Adapter。

利用文本模态稳定学习:

文本作为不变的语义锚点:对于所有类别(旧类和新类),其类别名称都可以通过冻结的文本编码器转化为文本特征。这些文本特征提供了稳定、高质量的类别语义表示。

跨模态对齐约束:

在增量学习新类时,损失函数不仅要求图像特征能正确分类,还会强制要求图像特征与其对应类别的文本特征在共享的嵌入空间中对齐。这种强大的语义约束有助于模型从有限的图像样本中更好地泛化,并减少对图像分支的过拟合。

应对遗忘的专门策略:

基于文本的旧类回放:

由于存储旧类的图像样本可能涉及隐私或成本问题,一种巧妙的做法是只存储旧类的名称。在学习新类时,可以通过这些类名生成文本特征,并让新类的图像特征与所有旧类的文本特征保持足够远的距离(余弦相似度损失),从而隐式地复习旧类,防止分类边界被侵蚀。

模型参数正则化:

由于采用了PEFT,可训练参数很少,可以更容易地应用正则化方法(如EWC, LwF的变种)来防止这些少量参数发生剧烈变化,进一步巩固旧知识。

五、作用

实现可持续学习的人工智能:为解决现实世界中模型需要不断适应新知识、且标注数据稀缺的核心难题提供了可行的技术路径。

高效且实用:参数高效微调使得该方法计算成本低、部署便捷,非常适合资源受限的边缘设备或需要频繁更新的在线服务。

显著提升性能:通过利用多模态先验,该方法有望在少样本类增量学习基准上取得显著优于单模态方法或全参数微调方法的性能,尤其是在缓解遗忘和提升新类学习效果方面。

推动多模态模型的应用:展示了大型多模态预训练模型不仅是强大的零样本预测器,更是构建高效、健壮的持续学习系统的理想基础平台。

相关推荐
jl48638213 分钟前
打造医疗设备的“可靠视窗”:医用控温仪专用屏从抗菌设计到EMC兼容的全链路解析
大数据·运维·人工智能·物联网·人机交互
呱呱巨基6 分钟前
c语言 文件操作
c语言·开发语言·c++·笔记·学习
kiro_10237 分钟前
BGRtoNV12与NV12toBGR互转函数
人工智能·opencv·计算机视觉
码农三叔7 分钟前
(9-1)电源管理与能源系统:电池选择与安全
人工智能·嵌入式硬件·安全·机器人·能源·人形机器人
司沐_Simuoss9 分钟前
Text to SQL系统的千层套路~
数据库·人工智能·sql·语言模型·系统架构
北京阿法龙科技有限公司11 分钟前
工业场景下AR+AI图像识别:精准选型赋能运维与质检
运维·人工智能·ar
哥布林学者20 分钟前
吴恩达深度学习课程五:自然语言处理 第三周:序列模型与注意力机制(四)语音识别和触发字检测
深度学习·ai
才兄说32 分钟前
机器人租售怎么嵌?按流程节点
人工智能
logic_534 分钟前
关于VIT为啥可以用卷积代替第一层嵌入层
人工智能·神经网络·cnn
小康小小涵36 分钟前
改进型深度Q-网格DQN和蒙特卡洛树搜索MCTS以及模型预测控制MPC强化学习的机器人室内导航仿真
人工智能·机器人·自动驾驶