Deformable DETR中的look forword once

在DINO中正对Deformable DETR中的look forward once做了改进

左图是Deformable DETR,右图是DINO

Look Forward Once对应的代码部分:

怎么理解iterative box refinement 可以阻止梯度反向传播来稳定训练?

python 复制代码
reference_points = new_reference_points.detach()
  • 什么是梯度切断? 切断梯度表示阻止反向传播的梯度从当前层的 reference_points 传播到上一层。也就是说,后续层的梯度不会影响前一层生成的边界框参考点。

  • 实现效果: 每一层的 reference_points 是通过当前层的预测生成的,但它不会受到后续层优化路径的影响,从而确保预测的独立性。

代码解析

1. DeformableTransformerDecoder中的self.box_embed不是赋值为None吗?在哪儿改变的值?

解答:

  • self.bbox_embed 被克隆为多个独立的实例,每个解码器层对应一个独立的 bbox_embed 模块。
  • 然后,self.bbox_embed 被赋值到 self.transformer.decoder.bbox_embed
  • 这一赋值操作是外部对 DeformableTransformerDecoder.bbox_embed 的修改。
相关推荐
Hello world.Joey4 分钟前
SiamFC概述
人工智能·深度学习·计算机视觉·目标跟踪
AI人工智能+4 分钟前
行驶证识别技术融合计算机视觉与自然语言处理,实现机动车证件信息的精准提取
深度学习·计算机视觉·ocr·行驶证识别
xiaotao1311 小时前
04-进阶方向: 01-计算机视觉(CV)——目标检测(YOLO系列)
yolo·目标检测·计算机视觉
Eva_Hua1 小时前
NTIRE2025 RAW图像恢复与超分辨率
人工智能·计算机视觉
咸鱼翻身小阿橙1 小时前
Qt页面小项目
开发语言·qt·计算机视觉
AI算法沐枫2 小时前
计算机视觉需要哪些数学基础?常见问题全解析
人工智能·深度学习·线性代数·计算机视觉·自然语言处理
ccut 第一混2 小时前
python opencv 计算 色坐标(CIE 1931 )
opencv·计算机视觉
m0_743106463 小时前
【浙大&南洋理工最新综述】Feed-Forward 3D Scene Modeling(五)
人工智能·算法·计算机视觉·3d·几何学
ZPC821017 小时前
fanuc 机器人通过PR寄存器实现轨迹控制
人工智能·算法·计算机视觉·机器人
AI人工智能+20 小时前
文档抽取系统结合OCR技术与大语言模型,有效解决档案数字化与知识化利用之间的矛盾
人工智能·计算机视觉·ocr·文档抽取