【PromptCC】遥感图像变化字幕的解耦范式

摘要

动机

  • 图1 (a)所示方法对两种图像对进行耦合处理,用一个编码器来同时突出变化图像的变化特征和捕获变化图像的无变化语义很困难,且目前的方法更关注变化区域的特征提取,不适合描述不变的图像对。
  • 图1 (b)所示方法参考人脑在变化描述时的思维模式,视觉上确定是否存在变化后,根据粗略的分类结果,大脑进一步识别图像对的内容。受此启发,本文提出一个解耦范式,将RSICC任务解耦为两个问题:是否发生了变化、发生了什么变化。

方法

PromptCC结构如下:

  • 预训练后的CLIP模型的Vision Transformer从双时间图像中提取视觉特征;
  • 用图像级分类器和特征级编码器(均使用Transformer编码器)进一步处理提取的视觉特征,实现任务的解耦,前者执行二值分类,确定双时态图像中是否存在变化,后者有助于提取鉴别特征,确定发生了什么变化。
    • Image-level Classifier:二值分类任务,区分是否变化
    • Feature-level Encoder:解决区分发生了什么变化
  • 对于描述生成,引入Prompt Learning使用LLM作为描述生成器。具体地说,多提示学习策略生成多个可学习的提示,由一组统一的提示和一个特定类提示组成,这依赖分类器结果。最后,将生成的多个提示和提取的视觉特征连接起来,并发送到冻结的预先训练的LLM中进行标题生成。
    • Multi-prompt Learning Strategy

      • 结合RSICC任务的解耦情况,提出多提示学习策略生成多个可学习的提示,由一组统一的提示和一个特定于类的提示组成,前者可看作全局任务依赖提示(其中K为可学习嵌入的数量),训练阶段结束后,在推理过程中对每个样本使用学习到的提示。后者依赖图像级分类器的结果,可以使LLM知道图像中是否存在变化,通过两个可学习的提示嵌入生成:表示没有变化,表示变化。其中,是文本嵌入的维度,本文用两种方式将它们结合起来去生成特定于类的提示:

        1. Soft class-specific prompt:通过加权和图像级分类器的预测概率生成:
        1. Hard class-specific prompt:根据图像级分类器的分类结果,选择中的一个生成:,
      • 最后,生成的多提示可以表述为:

    • Pre-trained Large Language Model

      • 预训练后的LLM具有强大的特征表示能力,受GPT家族(如GPT-2、GPT-3和ChatGP)在语言生成任务上的巨大成功的启发,本文使用GPT-2作为标题生成器

      • GPT-2是一种基于trasformer的自回归LLM算法,是在一个大规模的互联网文本数据集上进行训练的,训练的目标是预测下一个单词。可以利用它强大的文本生成能力来生成标题。

      • 将特征级编码器的上下文丰富表示和多提示输入冻结的GPT-2,以自回归的方式生成句子。详细过程见算法1。

实验

Comparison to State-of-the-Art

Ablation Studies

Qualitative Results and Analysis

Advantage of the decoupling paradigm

Parametric Experiments and Analysis

相关推荐
向量引擎22 分钟前
向量引擎接入 GPT Image 2 和 deepseek v4:一个 api key 把热门模型串起来,开发者终于不用深夜修接口了
人工智能·gpt·计算机视觉·aigc·api·ai编程·key
Yzzz-F1 小时前
Problem - 2205D - Codeforces
算法
AI医影跨模态组学1 小时前
如何将纵向MRI深度学习特征与局部晚期直肠癌新辅助放化疗后的免疫微环境建立关联,并解释其对pCR及预后的机制
人工智能·深度学习·论文·医学·医学影像·影像组学
智者知已应修善业1 小时前
【51单片机2个按键控制流水灯运行与暂停】2023-9-6
c++·经验分享·笔记·算法·51单片机
Halo_tjn2 小时前
Java Set集合相关知识点
java·开发语言·算法
格林威2 小时前
工业视觉项目:如何与客户有效沟通验收标准?
人工智能·数码相机·计算机视觉·视觉检测·机器视觉·工业相机·视觉项目
生成论实验室2 小时前
《事件关系阴阳博弈动力学:识势应势之道》第四篇:降U动力学——认知确定度的自驱演化
人工智能·科技·神经网络·算法·架构
AI科技星2 小时前
全域数学·72分册:场计算机卷【乖乖数学】
算法·机器学习·数学建模·数据挖掘·量子计算
西西弗Sisyphus3 小时前
从零实现Transformer:第 4 部分 - 残差连接、层归一化与前馈网络(Add & Norm, Feed-Forward)
resnet·transformer·attention·注意力机制·注意力
冰西瓜6003 小时前
深度学习的数学原理(三十三)—— Transformer编码器完整实现
人工智能·深度学习·transformer