D-FINE

FDR细粒度分布优化

define实在RT-DETR的基础上进行改进

先回顾RT-DETR部分的计算:

让decoder部分的输出分别经过两个检测头,一个是类别检测头,一个是定位检测头,从定位检头得到的输出,它相较于基准坐标的预测偏移量,我们会让这个基准坐标先经过sigmoid的反函数,把坐标先映射为左sigmoid之前的原始值,加上预测出来的坐标偏移量,想加后就是修正过的,预测出来的bound box,这里要再做一个sigmoid,进行归一化,然后再拿回去,作为下一个decoder列的输入,下一个decoder列会在这个坐标的基础上继续预测偏移量,等六个decoder列都预测完,最终得到预测出来的bound box的坐标就是在最初的reference-points-unact坐标的基础上,++修正六次之后得到的bounding box 的坐标。++这就是对RT-DETR这部分运算的回顾。


D-Fine

和RT-DETR也是一样,逐层的对定位坐标进行修正。

经过六层的decoder列,会修正六次坐标,像论文中的示意图这样:

第一个decoder列会分别经过两个检测头,一个是traditional head,D-fine head;traditional head 她的作用是预测出来一个初始的bounding box坐标,这边每层decoder列的输出,分别经过define head 去预测出一个坐标偏移量,这些坐标偏移量会进行累加,逐层在bounding box的位置上进行修正 。

第一个decoder经过第一个define head

第二个decoder经过第二个define head 输出出来的结果也是预测的坐标偏移量,这次预测出的坐标偏移量会累加在上一个坐标偏移量之上...后面依次类推。

我们从decoder列1 得到的输出,是(bs 500 256),这个500表示的是有500个bounding box,

这五百个bounding box是咋得到的?

500个 bounding box 不是从图像提取出来的,而是网络自己想象出来的可学习的参数。

具体来两,这500是object queries(对象查询)

伪代码示意

self.num_queries = 500 # 超参数,人为设定
self.hidden_dim = 256 # 特征维度

这 500 个查询是可学习的 Embedding,就像卷积核权重一样

self.tgt_embed = nn.Embedding(num_queries, hidden_dim) # (500, 256)

  • 形状:(bs,500,256)中的500表示"我假设这张图最多有500个坐标"
  • 本质:这500个向量是随机初始化的,通过端到端的惗,他们逐渐学会:
    • 有的query专门差"左上角的猫"
    • 有的query专门查"右下角的人"
    • 有的query学会查"小目标"
    • 有的query学会查"大目标"

(200+300机制)

是混合查询选择机制的结果,

1.encoder输出特征图,图像经过backbone和encoder之后,得到特征图

2.选出top-200 (来自图像内容)

1.预测分数,在encoder输出的每个空间位置预测类别无关的objectness分数

2.选出top-200,选出得分最高的200个位置索引

3.提取特征作为query content,这200个位置对应的特征向量被提取出来,作为200个 content

4.生成reference points(参考点)这两百个位置对应的原图坐标经过归一化(加上预测 的小偏移)生成两百个参考点

3。除了图像选出200,增加300个纯可学习的query(类似原始DETR)

4.直接拼接成500个box query

image-aware 200 encoder选出的真实特征**精确定位:**确保query锚定在有可能有物体的实际位置,加速收敛

learnable 300 网络随机初始化学习 **覆盖纰漏:**学习数据集中的统计分布,防止encoder漏检小目标

相关推荐
threelab12 小时前
Three.js 初中数学函数可视化 | 三维可视化 / AI 提示词
开发语言·前端·javascript·人工智能·3d·着色器
咖啡里的茶i12 小时前
视觉显著目标的自适应分割与动态网格生成算法研究
人工智能·算法·目标跟踪
怪祝浙12 小时前
AI实战之RAG知识库构建和私有化agent设计
人工智能
weelinking12 小时前
【企业级】企业级大模型合规实战:数据安全与跨境传输的技术解决方案
数据库·人工智能·机器学习·云计算·github
耕烟煮云13 小时前
本文深入解析AI Native产品设计的核心范式——Linear三层架构模型
人工智能·架构
Rewloc13 小时前
人生计算器
人工智能
波动几何13 小时前
内容执行创新正交组合闭集
人工智能
XD74297163613 小时前
科技早报晚报|2026年5月13日:Agent 记忆、编程控制台与本地研究工作台,今天更值得动手的 3 个机会
人工智能·科技·开源项目·科技新闻·ai agent·开发者工具·科技早报
XD74297163613 小时前
科技早报|2026年5月16日:AI 正往高门槛场景下沉
人工智能·科技·开发者工具·科技早报
X54先生(人文科技)13 小时前
《元创力》纪实录·桥段古卷显影:当未来考古遇见元协议
人工智能·开源·零知识证明