Multimodal Parameter-Efficient Few-Shot Class Incremental Learning
一、背景
本文的背景是三个关键挑战的交汇点,模拟了现实世界AI系统需要持续学习的场景:
类增量学习:
模型需要在不遗忘旧类别知识的情况下,持续学习新的类别。例如,一个动物分类器已经学会了"猫"和"狗",现在要学习"兔子",但不能忘记如何识别猫和狗。核心挑战是灾难性遗忘。
少样本学习:
新增的类别只有极少数标注样本(例如,每个新类只有1-5张图片)。这加大了学习的难度,因为模型很难从少量数据中充分学习新类的特征,同时更容易因微调而产生过拟合,进而加剧对旧类的遗忘。
多模态学习:
模型利用多种类型的数据(如图像和文本)进行学习。例如,使用CLIP这样的预训练模型,它天然理解图像和文本的对应关系。这为解决上述挑战提供了新的可能,因为文本描述可以作为强大的先验知识。
参数高效微调:
随着模型变得越来越大(如大型预训练模型),在每一个新任务上全参数微调变得计算成本高昂且不切实际。PEFT方法(如Adapter, LoRA, Prompt Tuning)旨在仅微调模型的一小部分参数,来适应新任务,同时保持模型的主要部分不变。
二、现有研究的局限性
将以上挑战结合起来看,现有方法存在明显不足:
单一模态方法的瓶颈:
传统的类增量学习或少样本增量学习方法大多基于单模态(通常是图像)。它们缺乏利用文本等额外模态信息来稳定学习过程、缓解遗忘的能力。当数据极少时,单模态信息本身是不足的。
多模态模型使用方式低效:
即使使用了多模态模型(如CLIP),现有增量学习方法可能仍沿用旧思路,比如只微调图像编码器,或者进行简单的全参数微调。这既浪费了文本模态的语义引导潜力,又可能导致计算效率低下和严重的跨任务干扰(微调新类时容易破坏模型原有的跨模态对齐)。
灾难性遗忘与过拟合的叠加:
在少样本类增量场景下,灾难性遗忘和过拟合问题会相互加剧。用极少的样本去微调一个大型模型,极易使模型过度适应新样本的细节,从而迅速偏离之前学到的、关于旧类的通用表示。
三、本文创新性
本文的创新性在于系统性地整合了上述四个方向,提出一个统一的、高效的解决方案。
核心思想:
利用多模态先验知识(特别是文本的语义信息),通过参数高效微调策略,来实现稳健的少样本类增量学习。
创新融合:
它不是简单地将现有技术堆砌,而是设计了一种机制,使得文本模态在整个增量学习过程中持续地充当"稳定器"和"知识库"的角色,并通过PEFT来最小化对模型核心知识的破坏。
四、技术亮点
模型设计很可能包含以下关键组件:
基于预训练多模态模型的架构:
以CLIP之类的模型作为基础骨架,包含一个图像编码器和一个文本编码器。
参数高效的增量更新机制:
不是微调整个CLIP模型,而是采用PEFT技术。可能的方法包括:
提示学习:
为图像编码器和文本编码器引入可学习的提示令牌。每个新任务(一组新类别)都学习一组新的提示,而模型主干参数保持冻结。这样,不同任务的知识被隔离在各自的提示参数中,极大减少了遗忘。
Adapter模块:
在CLIP的编码器中插入小的Adapter网络,增量学习时只训练这些Adapter。
利用文本模态稳定学习:
文本作为不变的语义锚点:对于所有类别(旧类和新类),其类别名称都可以通过冻结的文本编码器转化为文本特征。这些文本特征提供了稳定、高质量的类别语义表示。
跨模态对齐约束:
在增量学习新类时,损失函数不仅要求图像特征能正确分类,还会强制要求图像特征与其对应类别的文本特征在共享的嵌入空间中对齐。这种强大的语义约束有助于模型从有限的图像样本中更好地泛化,并减少对图像分支的过拟合。
应对遗忘的专门策略:
基于文本的旧类回放:
由于存储旧类的图像样本可能涉及隐私或成本问题,一种巧妙的做法是只存储旧类的名称。在学习新类时,可以通过这些类名生成文本特征,并让新类的图像特征与所有旧类的文本特征保持足够远的距离(余弦相似度损失),从而隐式地复习旧类,防止分类边界被侵蚀。
模型参数正则化:
由于采用了PEFT,可训练参数很少,可以更容易地应用正则化方法(如EWC, LwF的变种)来防止这些少量参数发生剧烈变化,进一步巩固旧知识。
五、作用
实现可持续学习的人工智能:为解决现实世界中模型需要不断适应新知识、且标注数据稀缺的核心难题提供了可行的技术路径。
高效且实用:参数高效微调使得该方法计算成本低、部署便捷,非常适合资源受限的边缘设备或需要频繁更新的在线服务。
显著提升性能:通过利用多模态先验,该方法有望在少样本类增量学习基准上取得显著优于单模态方法或全参数微调方法的性能,尤其是在缓解遗忘和提升新类学习效果方面。
推动多模态模型的应用:展示了大型多模态预训练模型不仅是强大的零样本预测器,更是构建高效、健壮的持续学习系统的理想基础平台。