(论文速读)视觉语言模型的无遗忘学习

论文题目:Learning Without Forgetting for Vision-Language Models(视觉语言模型的无遗忘学习)

期刊:TPAMI

摘要:类增量学习(CIL)或持续学习是现实世界中需要的一种能力,它要求学习系统在不忘记以前的任务的情况下适应新的任务。传统的CIL方法侧重于视觉信息来掌握核心特征,而视觉语言模型(VLM)的最新进展在借助文本信息学习泛化表示方面显示出了很好的能力。然而,当不断接受新课程的训练时,vlm往往会灾难性地忘记以前的知识。将vlm应用于CIL面临两大挑战:1)如何在不遗忘的情况下调整模型;2)如何充分利用多模态信息。为此,我们提出投影融合(PROOF),使vlm能够学习而不会忘记。为了解决第一个挑战,我们提出了基于固定图像/文本编码器的训练任务特定投影。当面对新的任务时,扩展新的投影,固定以前的投影,减轻了对旧概念的遗忘。对于第二个挑战,我们提出融合模块,以更好地利用跨模态信息。通过共同调整视觉和文本特征,该模型可以更好地捕获特定于任务的语义信息,从而促进识别。在具有各种持续学习场景和各种vlm的9个基准数据集上进行的广泛实验验证了PROOF达到了最先进的性能。


让视觉语言模型学会持续学习而不遗忘

引言

在人工智能快速发展的今天,**持续学习(Continual Learning)**能力已成为智能系统的关键需求。想象这样一个场景:一个图像识别系统需要不断学习识别新的物体类别,但每次学习新知识时,它都会忘记之前学过的东西------这就是机器学习领域著名的"灾难性遗忘(Catastrophic Forgetting)"问题。

最近,来自南洋理工大学和南京大学的研究团队在IEEE TPAMI 2025上发表了一篇重要论文,提出了**PROOF(PROjectiOn Fusion)**框架,成功解决了视觉-语言模型在类增量学习中的遗忘问题。这项研究不仅在理论上有所突破,更在9个基准数据集上取得了显著的性能提升。

问题的挑战性

传统方法的困境

当前的类增量学习面临两难境地:

  1. 视觉方法的局限: 传统CIL方法(如L2P、DualPrompt)主要关注视觉特征,虽然能够缓解遗忘,但忽略了文本中丰富的语义信息。就像一个只看图片不读文字说明的学生,学习效率自然大打折扣。

  2. VLM微调的困境: CLIP等视觉-语言模型虽然能够利用跨模态信息,但顺序微调会导致灾难性遗忘。研究团队在论文中明确指出,当使用CoOp等方法顺序调优CLIP时,模型会严重遗忘先前学习的概念。

核心挑战

论文总结了将VLM应用于CIL的两大挑战:

  1. 如何在不遗忘的情况下适应模型?
  2. 如何充分利用多模态信息?

PROOF的创新解决方案

架构设计哲学

PROOF的设计遵循两个核心理念:

  • Retentive(保持性): 模型应能保持预训练能力,从而保留泛化性并在未来任务上表现良好
  • Comprehensive(全面性): 模型应能整合和调整来自多个模态的信息

技术创新详解

1. 可扩展投影机制

PROOF的第一个创新是任务特定的可扩展投影层。具体而言:

  • 冻结主干网络: 保持CLIP的图像和文本编码器完全冻结,确保预训练知识不被破坏
  • 添加投影层: 在冻结编码器之后添加线性投影层Pi(·)和Pt(·),将特征映射到适配空间
  • 任务扩展策略: 每当新任务到来时,初始化新的投影层并冻结旧的,实现知识累积而非覆盖

数学上,投影聚合表示为:

复制代码
Pi(z) = Σ(m=1 to b) P^m_i(z)
Pt(w) = Σ(n=1 to b) P^n_t(w)

这种设计的巧妙之处在于:每个投影层仅包含d×d个参数(对于ViT-B/16,d=512),相对于CLIP的1.5亿参数几乎可以忽略不计,但却能有效编码任务特定信息。

2. 跨模态融合模块

PROOF的第二个创新是自注意力驱动的跨模态融合

上下文信息构建包含三个关键组件:

  1. 视觉原型P : 为每个类别计算的代表性视觉特征,公式为

  2. 文本特征W: 使用模板文本生成的类别文本嵌入

  3. 可学习上下文提示C: 每个任务的可扩展提示向量,用于编码任务特定信息

融合过程通过自注意力机制实现:

复制代码
[P̃i(z), P̃, W̃, C̃] = SelfAttention([Pi(z), P, W, C])

这种设计允许模型根据上下文信息自适应地调整查询嵌入。例如,当查询图像是"熊猫"时,模型会强调黑眼圈和耳朵等判别性特征;当是"猫"时,则会突出胡须和尾巴。

3. 多目标聚合推理

PROOF设计了三种互补的匹配目标:

  1. 投影匹配(fPM): 直接匹配投影后的视觉和文本特征
  2. 视觉匹配(fVM): 匹配融合后的查询嵌入与视觉原型
  3. 文本匹配(fTM): 匹配融合后的查询嵌入与文本特征

最终分类通过聚合三者实现:f(x) = fPM(x) + fVM(x) + fTM(x)

训练时优化交叉熵损失:

复制代码
L = ℓ(fPM(x),y) + ℓ(fVM(x),y) + ℓ(fTM(x),y)

实验验证:数据说话

基准测试表现

研究团队在9个数据集上进行了全面评估,使用两种常用的CLIP权重(OpenAI和OpenCLIP LAION-400M)。

在CIFAR100 Base0 Inc10设置下:

  • PROOF平均准确率: 86.70%
  • 最终准确率: 82.92%
  • 相比最佳对比方法提升: 约2-3个百分点

跨数据集稳定性: PROOF在所有9个数据集上都取得了最佳性能:

数据集 平均准确率 最终准确率
Aircraft 64.61% 55.81%
CIFAR100 86.70% 82.92%
CUB 86.70% 79.05%
ImageNet-R 80.10% 80.10%
Food 85.34% 79.43%

消融实验洞察

研究团队进行了细致的消融实验来验证每个组件的贡献:

  1. 组件重要性(CIFAR100 B0 Inc10):

    • 仅投影: 性能提升明显
    • 仅融合: 性能提升明显
    • 投影+融合: 性能进一步提升
    • 投影+融合+上下文提示: 最佳性能
  2. 上下文提示长度鲁棒性 : 实验测试了c从1到100的不同长度,发现c=3时即可达到稳定的优秀性能,表明提示只需较小规模即可编码任务特定信息。

  3. 投影层类型选择 : 对比了线性层、SSF(Scale-Shift-Freeze)和Adapter三种实现,发现单个线性层性能最佳,验证了简单线性映射即可有效弥合视觉-文本域间隙的假设。

真实世界验证:TV100数据集

为了验证PROOF在真实世界场景中的表现,研究团队构建了一个特殊的数据集TV100,包含2021年后发布的100部电视剧(CLIP训练数据截止于2021年)。

关键发现:

  • 预训练CLIP零样本准确率: 仅约10%
  • PROOF在此数据集上: 仍显著优于所有对比方法

这证明了PROOF不仅在标准基准上有效,在面对真正"未见过"的概念时同样表现出色。

跨模态检索任务

PROOF的通用性还体现在其他持续学习场景中。在Flickr30K数据集的持续跨模态检索任务上:

  • 图像检索 (IR@1): 最后阶段召回率提升2.5个百分点
  • 文本检索 (TR@1): 最后阶段召回率提升2.5个百分点
  • 在R@5和R@10指标上同样保持领先

零样本性能权衡

论文还探讨了一个重要问题:持续学习是否会损害模型的零样本泛化能力?

研究团队提出了PROOF†变体,采用残差投影格式:

复制代码
Pi(z) = Σ(m=1 to b) (P^m_i(z) + z)

实验结果显示:

  • PROOF†在未见类别上的准确率AU接近ZS-CLIP
  • LAION匹配分数保持在与ZS-CLIP相似的水平
  • 在已见类别和未见类别的调和平均AHM上取得平衡

这表明通过适当的设计,可以在适应性和泛化性之间取得良好平衡。

技术细节与实现

参数效率分析

PROOF的额外参数来源于三部分:

  1. 投影层: 2b × d² (b为任务数)
  2. 融合模块: 3 × d² (自注意力的Q、K、V矩阵)
  3. 视觉原型: B × d (B为总类别数)

总参数量: (2b+3) × d² + B × d

对于典型设置(d=512, b=10, B=100):

  • 额外参数: 约13M
  • CLIP主干参数: 约150M
  • 额外参数占比: 不到9%

更重要的是,投影层可以在推理时合并:

复制代码
Pî(z) = Σ P^m_i(z) = Σ P^m_i × z = (Σ P^m_i) × z

这意味着推理时只需存储一个合并后的投影矩阵,将存储需求从(2b+3)×d²降至5×d²。

训练策略

PROOF的训练过程遵循以下步骤(Algorithm 1):

  1. 初始化: 提取新类别的视觉原型
  2. 冻结旧知识: 冻结之前任务的投影和上下文提示
  3. 扩展新组件: 初始化新的投影层P^b_i、P^b_t和上下文提示c^b
  4. 联合训练 : 在当前数据Db和示例集E上优化:
    • 计算投影匹配损失
    • 执行跨模态融合
    • 计算视觉和文本匹配损失
  5. 梯度更新: 仅更新当前任务的可训练参数

训练配置:

  • 优化器: SGD with momentum
  • 批大小: 64
  • 训练轮数: 5 epochs
  • 学习率: 0.001,余弦退火衰减
  • 每类示例数: 20(使用herding算法选择)

方法的优势与局限

核心优势

  1. 通用性强: 适用于多种VLM(CLIP、BEiT-3)和多种持续学习场景(CIL、跨模态检索)
  2. 参数高效: 额外参数不到主干网络的10%,且支持推理时合并
  3. 性能卓越: 在所有测试数据集上都达到了SOTA性能
  4. 设计简洁: 核心思想清晰,易于理解和实现
  5. 可扩展性: 可以灵活调整以在适应性和泛化性之间取得平衡

潜在局限

  1. 示例依赖: 仍然需要存储少量旧类别示例(每类20个)
  2. 任务边界假设: 假设任务边界是已知的
  3. 计算开销: 自注意力机制在类别数量很大时可能成为瓶颈

未来展望

论文指出了几个值得探索的方向:

  1. 无示例学习: 将PROOF扩展到完全无示例的场景
  2. 任务无关学习: 移除对明确任务边界的依赖
  3. 更大规模验证: 在更大规模的数据集(如完整ImageNet)上验证
  4. 其他VLM: 探索PROOF在更多先进VLM(如Flamingo、BLIP-2)上的应用

结语

PROOF为视觉-语言模型的持续学习提供了一个优雅而有效的解决方案。通过可扩展投影和跨模态融合的巧妙结合,它成功克服了灾难性遗忘问题,同时充分利用了多模态信息。

实验数据充分证明了其有效性:在9个基准数据集上全面领先,在非重叠数据集上表现出色,在跨模态检索任务上同样有效。更重要的是,PROOF的设计理念------保持预训练知识的同时渐进式扩展任务特定组件------为未来的持续学习研究提供了宝贵的启示。

随着基础模型规模的不断增大,如何让这些模型高效地进行持续学习变得越来越重要。PROOF展示了一条可行的道路:不是从头训练,而是巧妙地"补丁式"扩展;不是单模态学习,而是跨模态协同。这种思路对于构建真正智能的、能够持续学习的AI系统具有重要意义。

相关推荐
杰克逊的日记2 小时前
LLM(大语言模型)
人工智能·语言模型·自然语言处理
Q_Q19632884753 小时前
python+django/flask基于深度学习的个性化携程美食数据推荐系统
spring boot·python·深度学习·django·flask·node.js·php
夏文强3 小时前
HarmonyOS开发-系统AI视觉能力-图片识别
人工智能·华为·harmonyos
胡耀超3 小时前
通往AGI的模块化路径:一个可能的技术架构(同时解答微调与RAG之争)
人工智能·python·ai·架构·大模型·微调·agi
说私域3 小时前
定制开发AI智能名片S2B2C商城小程序的发展与整合资源策略研究
人工智能·小程序
落羽的落羽3 小时前
【C++】现代C++的新特性constexpr,及其在C++14、C++17、C++20中的进化
linux·c++·人工智能·学习·机器学习·c++20·c++40周年
User_芊芊君子3 小时前
【深入浅出】:人工智能从入门到实战
人工智能
zzZ65653 小时前
用 PyTorch 训练 NestedUNet 分割细胞核
计算机视觉
嵌入式-老费3 小时前
自己动手写深度学习框架(神经网络的引入)
人工智能·深度学习·神经网络