【PromptCC】遥感图像变化字幕的解耦范式

摘要

动机

  • 图1 (a)所示方法对两种图像对进行耦合处理,用一个编码器来同时突出变化图像的变化特征和捕获变化图像的无变化语义很困难,且目前的方法更关注变化区域的特征提取,不适合描述不变的图像对。
  • 图1 (b)所示方法参考人脑在变化描述时的思维模式,视觉上确定是否存在变化后,根据粗略的分类结果,大脑进一步识别图像对的内容。受此启发,本文提出一个解耦范式,将RSICC任务解耦为两个问题:是否发生了变化、发生了什么变化。

方法

PromptCC结构如下:

  • 预训练后的CLIP模型的Vision Transformer从双时间图像中提取视觉特征;
  • 用图像级分类器和特征级编码器(均使用Transformer编码器)进一步处理提取的视觉特征,实现任务的解耦,前者执行二值分类,确定双时态图像中是否存在变化,后者有助于提取鉴别特征,确定发生了什么变化。
    • Image-level Classifier:二值分类任务,区分是否变化
    • Feature-level Encoder:解决区分发生了什么变化
  • 对于描述生成,引入Prompt Learning使用LLM作为描述生成器。具体地说,多提示学习策略生成多个可学习的提示,由一组统一的提示和一个特定类提示组成,这依赖分类器结果。最后,将生成的多个提示和提取的视觉特征连接起来,并发送到冻结的预先训练的LLM中进行标题生成。
    • Multi-prompt Learning Strategy

      • 结合RSICC任务的解耦情况,提出多提示学习策略生成多个可学习的提示,由一组统一的提示和一个特定于类的提示组成,前者可看作全局任务依赖提示(其中K为可学习嵌入的数量),训练阶段结束后,在推理过程中对每个样本使用学习到的提示。后者依赖图像级分类器的结果,可以使LLM知道图像中是否存在变化,通过两个可学习的提示嵌入生成:表示没有变化,表示变化。其中,是文本嵌入的维度,本文用两种方式将它们结合起来去生成特定于类的提示:

        1. Soft class-specific prompt:通过加权和图像级分类器的预测概率生成:
        1. Hard class-specific prompt:根据图像级分类器的分类结果,选择中的一个生成:,
      • 最后,生成的多提示可以表述为:

    • Pre-trained Large Language Model

      • 预训练后的LLM具有强大的特征表示能力,受GPT家族(如GPT-2、GPT-3和ChatGP)在语言生成任务上的巨大成功的启发,本文使用GPT-2作为标题生成器

      • GPT-2是一种基于trasformer的自回归LLM算法,是在一个大规模的互联网文本数据集上进行训练的,训练的目标是预测下一个单词。可以利用它强大的文本生成能力来生成标题。

      • 将特征级编码器的上下文丰富表示和多提示输入冻结的GPT-2,以自回归的方式生成句子。详细过程见算法1。

实验

Comparison to State-of-the-Art

Ablation Studies

Qualitative Results and Analysis

Advantage of the decoupling paradigm

Parametric Experiments and Analysis

相关推荐
智者知已应修善业3 小时前
【求中位数】2024-1-23
c语言·c++·经验分享·笔记·算法
地平线开发者3 小时前
PTQ 量化数值范围与优化
算法·自动驾驶
sali-tec4 小时前
C# 基于halcon的视觉工作流-章68 深度学习-对象检测
开发语言·算法·计算机视觉·重构·c#
测试人社区-小明4 小时前
智能弹性伸缩算法在测试环境中的实践与验证
人工智能·测试工具·算法·机器学习·金融·机器人·量子计算
罗西的思考4 小时前
【Agent】MemOS 源码笔记---(5)---记忆分类
人工智能·深度学习·算法
深度学习实战训练营6 小时前
U-Net++:嵌套密集跳跃连接,多尺度融合增强特征表达,医学影像分割的unet创新-k学长深度学习专栏
人工智能·深度学习
哥布林学者6 小时前
吴恩达深度学习课程四:计算机视觉 第二周:经典网络结构 (一)经典卷积网络
深度学习·ai
Coding茶水间6 小时前
基于深度学习的反光衣检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·机器学习·计算机视觉
IT·小灰灰7 小时前
告别“翻墙“烦恼:DMXAPI让Gemini-3-pro-thinking调用快如闪电
网络·人工智能·python·深度学习·云计算
DatGuy7 小时前
Week 29: 深度学习补遗:MoE的稳定性机制与路由策略实现
人工智能·深度学习