Deformable DETR中的look forword once

在DINO中正对Deformable DETR中的look forward once做了改进

左图是Deformable DETR,右图是DINO

Look Forward Once对应的代码部分:

怎么理解iterative box refinement 可以阻止梯度反向传播来稳定训练?

python 复制代码
reference_points = new_reference_points.detach()
  • 什么是梯度切断? 切断梯度表示阻止反向传播的梯度从当前层的 reference_points 传播到上一层。也就是说,后续层的梯度不会影响前一层生成的边界框参考点。

  • 实现效果: 每一层的 reference_points 是通过当前层的预测生成的,但它不会受到后续层优化路径的影响,从而确保预测的独立性。

代码解析

1. DeformableTransformerDecoder中的self.box_embed不是赋值为None吗?在哪儿改变的值?

解答:

  • self.bbox_embed 被克隆为多个独立的实例,每个解码器层对应一个独立的 bbox_embed 模块。
  • 然后,self.bbox_embed 被赋值到 self.transformer.decoder.bbox_embed
  • 这一赋值操作是外部对 DeformableTransformerDecoder.bbox_embed 的修改。
相关推荐
是Dream呀2 小时前
深度学习在计算机视觉中的应用:对象检测
计算机视觉
Eric.Lee20216 小时前
数据集-目标检测系列 车牌检测&识别 数据集 CCPD2019
人工智能·python·目标检测·计算机视觉·车牌识别·车牌检测·yolo检测
一念之坤9 小时前
14篇--模板匹配
图像处理·python·opencv·计算机视觉
sp_fyf_202410 小时前
【大语言模型】ACL2024论文-28 TTM-RE: 增强记忆的文档级关系抽取
人工智能·深度学习·机器学习·计算机视觉·语言模型·自然语言处理·数据挖掘
橙子小哥的代码世界11 小时前
【计算机视觉CV-图像分类】06 - VGGNet的鲜花分类实现:从数据预处理到模型优化的完整实战!
人工智能·深度学习·神经网络·计算机视觉·分类·数据挖掘·卷积神经网络
Struart_R12 小时前
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer 论文解读
人工智能·深度学习·计算机视觉·transformer·视频生成
宸码1 天前
【项目实战】ISIC 数据集上的实验揭秘:UNet + SENet、Spatial Attention 和 CBAM 的最终表现
人工智能·python·深度学习·神经网络·机器学习·计算机视觉
Sherry Wangs1 天前
DA-CLIP:Controlling Vision-Language Models for Universal Image Restoration
人工智能·深度学习·计算机视觉·图像恢复
Tsuki08211 天前
车辆重识别代码笔记12.20
pytorch·笔记·python·深度学习·计算机视觉