Deformable DETR中的look forword once

在DINO中正对Deformable DETR中的look forward once做了改进

左图是Deformable DETR,右图是DINO

Look Forward Once对应的代码部分:

怎么理解iterative box refinement 可以阻止梯度反向传播来稳定训练?

python 复制代码
reference_points = new_reference_points.detach()
  • 什么是梯度切断? 切断梯度表示阻止反向传播的梯度从当前层的 reference_points 传播到上一层。也就是说,后续层的梯度不会影响前一层生成的边界框参考点。

  • 实现效果: 每一层的 reference_points 是通过当前层的预测生成的,但它不会受到后续层优化路径的影响,从而确保预测的独立性。

代码解析

1. DeformableTransformerDecoder中的self.box_embed不是赋值为None吗?在哪儿改变的值?

解答:

  • self.bbox_embed 被克隆为多个独立的实例,每个解码器层对应一个独立的 bbox_embed 模块。
  • 然后,self.bbox_embed 被赋值到 self.transformer.decoder.bbox_embed
  • 这一赋值操作是外部对 DeformableTransformerDecoder.bbox_embed 的修改。
相关推荐
羊羊小栈11 小时前
基于「YOLO目标检测 + 多模态AI分析」的篮球动作规范智能检测分析预警系统
人工智能·yolo·目标检测·计算机视觉·毕业设计·大作业
Hua-Jay15 小时前
OpenCV联合C++/Qt 学习笔记(二十)----Harri角点检测、Shi-Tomas角点检测及亚像素级别角点位置优化
c++·笔记·qt·opencv·学习·计算机视觉
armwind16 小时前
数字图像处理-2-二值化,投影,灰度变换,直方图
计算机视觉
埃科光电16 小时前
应用分享丨16K光口彩色TDI线阵相机筑牢高端PCB质量防线
图像处理·计算机视觉·相机·pcb工艺
陈嘿萌16 小时前
学术速递|2026年4月 arXiv 图像融合论文汇总(04.01–04.30)10 篇最新成果
人工智能·机器学习·计算机视觉·图像融合·arxiv
鹿角片ljp16 小时前
实时目标检测部署复盘:模型没问题,现场出现框延迟和漏检
人工智能·目标检测·计算机视觉
No8g攻城狮17 小时前
【VR应用】部署企业级 VR 应用,主流方案有哪些及每个方案的优点和缺点
图像处理·计算机视觉·vr
AI人工智能+17 小时前
一种基于深度学习的表格识别技术,通过融合计算机视觉、图神经网络和Transformer等算法,能精准解析复杂表格结构
深度学习·计算机视觉·ocr·表格识别
深度学习lover1 天前
<数据集>yolo 交通违规标志识别<目标检测>
人工智能·深度学习·yolo·目标检测·计算机视觉·交通违规标志识别
3D探路人1 天前
模灵 大模型聚合API 转发流程技术实现
java·大数据·开发语言·前端·人工智能·计算机视觉