[迁移学习]DA-DETR基于信息融合的自适应检测模型

原文标题为:DA-DETR: Domain Adaptive Detection Transformer with Information Fusion;发表于CVPR2023

一、概述

本文所描述的模型基于DETR,DETR网络是一种基于Transformer的目标检测网络,详细原理可以参见往期文章:[自注意力神经网络]DETR目标检测网络。本文在DETR模型的基础上,引入了信息融合机制,可以有效的实现从有标记的源域无标记的目标域之间的转移。

相较于传统的两段式网络(Two-Stage;如Faster RCNN),DETR可以通过CNN骨干网络获得低层次的定位特征 (如对象周围的边缘)通过Transformer Head获得全局像素间的关系和高级语义特征。融合这两种不同层次的信息可以有效的解决域自适应问题。

本文创造性的提出了CTBlender (CNN-Transformer Blender)的概念。其原理是使用Transformer Head中的高级语义特征 来有条件的调节CNN主干中的低级特征。CTBlender由两个组件构成:

①分裂-合并融合(split-merge fusion;SMF):将CNN特征分为多个具有不同语义的组;再通过Transformer捕获这些语义信息;然后将这些通过并排合并(便于不同组之间有效的通信)

②多尺度聚合融合(scale aggregation fusion;SAF):通过融合多尺度特征的语义信息和本地化信息来聚合SMF获得的特征。

二、模型&方法

1.Deformable-MSA

DETR采用"编码器-解码器"模式,对于给定的图像,先由骨干网络生成特征向量,然后通过Transformer对其进行编解码,Transformer由多头注意力模块组成,可以定义为公式:

;其中是由个单头注意力构成,表示查询元素和关键元素,为可学习的投影权重,而一种缩放的点注意力(将查询和键值映射到输出中),可以描述为公式:

;其中均为可学习权重。

本文提出了一种Deformable-Transformer(可变形Transformer)来代替传统的Transformer,这种结构拥有更快的收敛速度,其可以表述为:

;其中为第k个采样点的偏移量,为关注权重,改结构可以有效的缓解DERT收敛慢的问题,同时可变形的特点也适合从骨干网络中融合多尺度特征结构。

2.网络结构

网络总体结构如上图所示,整个网络可以被描述为公式:

;其中为源域图像,为源域标签,为骨干网络,为DERT Head,为匈牙利损失函数。

从结构图可以看出,与传统DERT相比,其最大的区别是加入了CTBlender 模块用于进行非监督的域适应训练。故其用于监督学习的分支①与传统DERT相同,通过将损失函数前向传递即可完成训练。

对于无监督训练,CTBlender以源图目标图 的CNN的多尺度特征向量 和Transformer编码的语义向量 作为输入,CTBlender的输出将作为鉴别器 (Discriminator)的输入,计算得出用于域间对齐的对抗损失函数 ,可以表述为公式:

;其中是骨干网络函数,为Transformer编码器函数,为CTBlender函数为鉴别器。

DA-DERT的总体优化函数可以描述为:

3.CTBlender

CTBlender由两个模块组成:SMF(负责混合CNN和Transformer的特征)和SAF(负责融合不同尺寸的加权特征图),其具体结构如下:

①SMF

由于SMF对每层的操作都是一样的,原文选择时的数据进行展示。首先将CNN的特征图和Transformer的语义特征拆分(split )为多个组,(沿着通道均 分为个组)并通过空间 (Spatial-wise)和通道 (Channel-wise)两个方向进行融合;融合后的特征与信道进行合并(merge)。

空间融合 :分裂的特征首先进行归一化,然后通过可学习权重图对偏置图(bias map)进行重加权,可以描述为公式:

;其中的输出范围限定在[0,1]

通道融合 :分裂的通过全局池化进行压缩,然后通过可学习权重图对偏置图(bias map)进行重加权,可以描述为公式:

;其中GAP为全局平均池化(Global Average Pooling),的输出范围限定在[0,1]

利用上面求出的权重在对应的方向上对分裂后的特征图进行重新加权,得到加权后的特征图,然后沿着通道方向对进行K次混洗 (shuffle),将混洗后的特征图融合为

②SAF

将SMF得到的多尺度加权特征图组通过全局平均池化(GAP)压缩为向量组。首先通过逐元素求和的方法将通道方向的向量求和为;然后通过全连接层将向量和对应的权重向量连接();最后将文本信息嵌入到向量中,可描述为公式:

相关推荐
使者大牙4 分钟前
【LLM学习笔记】第四篇:模型压缩方法——量化、剪枝、蒸馏、分解
人工智能·深度学习·算法·机器学习
Matlab程序猿小助手5 分钟前
【MATLAB源码-第222期】基于matlab的改进蚁群算法三维栅格地图路径规划,加入精英蚁群策略。包括起点终点,障碍物,着火点,楼梯。
开发语言·人工智能·算法·matlab·机器人·无人机
岛屿旅人7 分钟前
2025-2026财年美国CISA国际战略规划(下)
网络·人工智能·安全·web安全·网络安全
卧式纯绿11 分钟前
自动驾驶3D目标检测综述(三)
人工智能·python·深度学习·目标检测·3d·cnn·自动驾驶
ydl112837 分钟前
机器学习周志华学习笔记-第7章<贝叶斯分类器>
笔记·学习·机器学习
ZOMI酱1 小时前
【AI系统】GPU 架构回顾(从2018年-2024年)
人工智能·架构
土豆炒马铃薯。1 小时前
【深度学习】Pytorch 1.x 安装命令
linux·人工智能·pytorch·深度学习·ubuntu·centos
阿_旭1 小时前
【超全】目标检测模型分类对比与综述:单阶段、双阶段、有无锚点、DETR、旋转框
人工智能·深度学习·目标检测·分类
研一计算机小白一枚2 小时前
Which Tasks Should Be Learned Together in Multi-task Learning? 译文
人工智能·python·学习·机器学习
xianghan收藏册2 小时前
基于lora的llama2二次预训练
人工智能·深度学习·机器学习·chatgpt·transformer