Deformable DETR中的look forword once

在DINO中正对Deformable DETR中的look forward once做了改进

左图是Deformable DETR,右图是DINO

Look Forward Once对应的代码部分:

怎么理解iterative box refinement 可以阻止梯度反向传播来稳定训练?

python 复制代码
reference_points = new_reference_points.detach()
  • 什么是梯度切断? 切断梯度表示阻止反向传播的梯度从当前层的 reference_points 传播到上一层。也就是说,后续层的梯度不会影响前一层生成的边界框参考点。

  • 实现效果: 每一层的 reference_points 是通过当前层的预测生成的,但它不会受到后续层优化路径的影响,从而确保预测的独立性。

代码解析

1. DeformableTransformerDecoder中的self.box_embed不是赋值为None吗?在哪儿改变的值?

解答:

  • self.bbox_embed 被克隆为多个独立的实例,每个解码器层对应一个独立的 bbox_embed 模块。
  • 然后,self.bbox_embed 被赋值到 self.transformer.decoder.bbox_embed
  • 这一赋值操作是外部对 DeformableTransformerDecoder.bbox_embed 的修改。
相关推荐
Coovally AI模型快速验证27 分钟前
MMYOLO:打破单一模式限制,多模态目标检测的革命性突破!
人工智能·算法·yolo·目标检测·机器学习·计算机视觉·目标跟踪
AI浩1 小时前
【面试总结】FFN(前馈神经网络)在Transformer模型中先升维再降维的原因
人工智能·深度学习·计算机视觉·transformer
可为测控1 小时前
图像处理基础(4):高斯滤波器详解
人工智能·算法·计算机视觉
old_power5 小时前
【PCL】Segmentation 模块—— 基于图割算法的点云分割(Min-Cut Based Segmentation)
c++·算法·计算机视觉·3d
PaLu-LI6 小时前
ORB-SLAM2源码学习:Initializer.cc⑧: Initializer::CheckRT检验三角化结果
c++·人工智能·opencv·学习·ubuntu·计算机视觉
清图8 小时前
Python 预训练:打通视觉与大语言模型应用壁垒——Python预训练视觉和大语言模型
人工智能·python·深度学习·机器学习·计算机视觉·自然语言处理·ai作画
pchmi11 小时前
C# OpenCV机器视觉:红外体温检测
人工智能·数码相机·opencv·计算机视觉·c#·机器视觉·opencvsharp
好评笔记12 小时前
AIGC视频扩散模型新星:Video 版本的SD模型
论文阅读·深度学习·机器学习·计算机视觉·面试·aigc·transformer
Fxrain12 小时前
[Computer Vision]实验三:图像拼接
人工智能·计算机视觉
AI视觉网奇15 小时前
python 统计相同像素值个数
python·opencv·计算机视觉