DINO-R1：激励推理能力的视觉基础模型

摘要

近期，人们对大型语言模型（如DeepSeek-R1）推理能力的关注呈爆炸式增长，通过基于强化学习的微调框架（如组相对策略优化（Group Relative Policy Optimization，GRPO）方法）取得了显著成功。然而，在视觉基础模型（包括像DINO系列这样的表征模型）中，这种推理能力仍鲜有探索且明显缺失。在本工作中，我们提出了DINO-R1，这是首次尝试使用强化学习来激励视觉基础模型的视觉上下文推理能力。具体而言，DINO-R1引入了组相对查询优化（Group Relative Query Optimization，GRQO），这是一种专门为基于查询的表征模型设计的新型强化式训练策略，它根据组归一化对齐质量计算查询级别的奖励。我们还应用了KL正则化来稳定目标分布，以减少训练的不稳定性。这种联合优化能够在查询之间实现密集且富有表现力的监督，同时减轻过拟合和分布漂移。在Grounding-DINO的基础上，我们训练了一系列DINO-R1家族模型，这些模型集成了视觉提示编码器和视觉引导的查询选择机制。在COCO、LVIS和ODinW上的大量实验表明，DINO-R1显著优于监督微调基线，在开放词汇和封闭集视觉提示场景中均表现出强大的泛化能力。

https://christinepan881.github.io/DINO-R1

1 引言

近期，以DeepSeek-R1[8,1]的出色表现为例的大型推理模型（Large Reasoning Models，LRMs）[1-10]取得了显著进展，在数学推理和编码等复杂推理任务中展现出了非凡的能力。这一突破主要得益于创新的强化学习（Reinforcement Learning，RL）策略，如组相对策略优化（Group Relative Policy Optimization，GRPO）[1]。通过迭代生成合成数据并通过可验证的奖励优化推理模型，DeepSeek-R1获得了与最先进的专有模型（如OpenAI o1）相媲美的卓越推理能力，显著重塑了语言建模领域。然而，尽管取得了这些令人印象深刻的进展，但视觉基础模型（Vision Foundation Models，VFMs）[11-17]中的推理能力发展却明显滞后。当前的VFMs主要依赖于针对预定义视觉类别的监督训练范式[18-20]或自监督目标[21-23]。这些传统的监督方法本质上缺乏稳健的推理机制，限制了它们在实际应用中有效泛化到新颖、模糊或高方差场景的能力。

在VFMs中，一个日益重要且新兴的场景是视觉提示（Visual Prompting）[24,16,25,15,26]，这是一种新范式，用户可以使用视觉示例来指定检测目标。这种方法在自动标注、工业检测和机器人操作等广泛应用中具有巨大的实用价值[27-36]。然而，尽管视觉提示检测器具有实际相关性，但训练它们却带来了新的挑战，因为视觉示例之间存在高度多样性和类内变化。与语言提示的对应物相比[14,37,38,26,39]，视觉提示检测器的训练方法在很大程度上仍未得到充分发展。我们观察到，仅使用监督微调（Supervised Fine-Tuning，SFT）进行训练在这些条件下通常难以取得良好效果，表现出收敛不稳定、对领域外数据的泛化能力有限以及查询预测与视觉提示对齐不佳等问题（第4节）。这些发现表明，普通的SFT不足以有效训练视觉提示检测器，这促使我们探索能够基于多样化视觉输入进行有效推理以实现稳健泛化的全新训练策略。

受近期基于RL的训练框架在LRMs中取得的突破[6-9,1,40-42,2,10,3-5]的启发，这些框架有效地利用了大规模噪声训练数据，我们旨在同样解锁纯视觉模型（如VFMs）中的推理能力潜力。然而，将基于语言的RL方法（如GRPO）直接应用于视觉领域却面临着不小的挑战。一方面，GRPO假设模型是一个概率生成器，能够显式采样多样化的输出结构预测，这使得在采样输出空间上进行优化变得非平凡。另一方面，GRPO中通过约束语言模型中令牌级别的输出分布来稳定训练的KL正则化方法，由于语言和视觉表述之间的根本差异，难以直接应用于结构化的视觉预测。

为此，我们提出了一种新颖的以视觉为中心的RL学习方法，称为组相关查询优化（Group Related Query Optimization，GRQO），旨在激励VFMs（特别是DINO系列）中的推理能力。具体而言，GRQO引入了一个查询级别的相对奖励模块，该模块评估组内每个查询的质量，并根据其相对于组平均值的优势计算归一化奖励。通过鼓励每个查询超越动态组基线，这一机制提供了更密集且信息量更大的训练信号（与传统的一对一匹配方案相比，如图1所示）。此外，我们还在查询/选择阶段对目标概率分布提出了KL散度正则化策略，以帮助减轻训练过程中的模型漂移和灾难性遗忘。为了支持这一新的训练范式，我们通过引入视觉提示编码器和视觉引导的查询选择机制实现了多样化的视觉提示，从而得到了一个无文本变体，我们称之为VIS-G-DINO基线。然后，我们使用提出的GRQO框架训练该模型，得到了一系列视觉LRMs，这里将最终产物称为DINO-R1。我们的主要贡献总结如下：

我们提出了组相关查询优化（GRQO），这是第一个旨在解决开放集目标检测中视觉提示高方差问题的强化式训练范式。
我们引入了一个查询级别的相对奖励模块和一个KL散度正则化策略，以提高视觉提示下的训练稳定性、查询质量和泛化能力。
我们开发了VIS-G-DINO，这是一个基于视觉提示的VFMs（如DINO）的RL训练框架，并将使用GRQO训练得到的检测器定义为DINO-R1。
我们在COCO、LVIS和ODinW上进行了大量实验，其中DINO-R1始终优于监督微调基线，并在开放词汇和封闭集视觉提示场景中均表现出强大的泛化能力。

2 相关工作

视觉基础模型与DETR。视觉基础模型（VFMs）[43,16,15,44,14,37,45,46,11,12,47,24,25,48,49]通过从大规模数据集中学习通用图像表征，在广泛的视觉任务中取得了显著进展。其中，DETR[50]及其衍生模型[51,52,13,16,14,53,15,37,38]使用基于Transformer的架构将目标检测表述为一个集合预测问题，提供了开放集能力并在密集预测任务上表现出色。特别是Grounding DINO[14,38]，它通过融入视觉-语言对齐将DETR扩展到开放词汇检测，从而能够通过语言提示进行短语定位的目标检测。

图1：SFT与GRQO的比较。SFT导致监督信号有限且同质化，而GRQO则产生更丰富且更多样化的学习信号，鼓励查询更具表现力。

开放词汇与基于提示的检测。开放词汇检测（Open-Vocabulary Detection，OVD）[54]旨在通过利用外部知识源（如预训练的文本编码器或图像-文本对）来识别超出监督训练集类别的目标。大多数现有的OVD方法[55,39,53,54,56,14]都侧重于使用语言提示来弥合类别差距，而使用视觉示例（而非文本）的视觉提示空间在很大程度上仍未得到充分探索。近期的研究[26,16,24,25,15]已经探索了使用参考图像或边界框来定位对象级别的语义。然而，这些方法往往依赖于推理时的条件设置，并且缺乏从高方差视觉提示中学习的稳健训练范式。

基础模型中的强化学习。强化学习[41,40,42,1,6]在通过人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF）[41]和组相对策略优化（Group Relative Policy Optimization，GRPO）[1,8]等方法微调大型语言模型（LLMs）[2,3,57,4-6,8]方面发挥了核心作用。这些方法使模型能够更好地与多样化、弱监督或模糊的目标对齐。然而，将强化式训练应用于视觉基础模型，特别是对于像目标检测这样的密集预测任务，仍鲜有探索。我们的工作通过将GRPO原则适应于基于Transformer的目标检测器中的查询级别学习，填补了这一空白。

3 方法论

尽管语言引导的目标检测在视觉 - 语言领域受到了越来越多的关注，但基于视觉提示的检测训练策略仍未得到充分探索。为了应对高方差视觉提示的挑战，并释放提示引导检测器的潜力，在本工作中，我们为视觉提示目标检测引入了一种新颖的训练范式，即组相对查询优化（Group Relative Query Optimization，GRQO）。该方法基于 Grounding - DINO（G - DINO）[14] 框架（§3.1）构建，整合了视觉提示编码器（§3.2）和 GRQO 机制（§3.3），以增强查询学习并提高检测的鲁棒性。

3.1 预备知识

给定一个图像 - 文本对 ( I m a g e , T e x t ) (Image, Text) (Image,Text)，G - DINO 使用图像主干网络 B i m g \mathcal{B}{img} Bimg（例如，Swin Transformer）提取多尺度视觉特征 I ∈ R N I × C \mathbf{I} \in \mathbb{R}^{N{I} \times C} I∈RNI×C，并使用文本主干网络 B t x t \mathcal{B}{txt} Btxt（例如，BERT）提取文本特征 t ∈ R N t x t × C \mathbf{t} \in \mathbb{R}^{N{txt} \times C} t∈RNtxt×C。这些特征通过跨模态特征增强器 F I , t \mathcal{F}{I,t} FI,t，结合可变形自注意力（用于图像）、普通自注意力（用于文本）以及双向交叉注意力进行融合，从而获得精炼后的特征 I ′ \mathbf{I}' I′ 和 t ′ \mathbf{t}' t′。为了在检测过程中利用文本指导，G - DINO 采用了一种语言引导的查询选择机制，根据跨模态相似度选择与文本提示最相关的 N a N{a} Na 个图像位置，并将其作为解码器查询的位置部分。一组可学习的查询通过多模态解码器关注提示和目标，该解码器由自注意力、图像交叉注意力、文本交叉注意力和前馈模块组成。最终通过查询与精炼后的提示特征之间的对比相似度进行类别预测。遵循 DETR 风格的监督方式，模型使用焦点损失（focal loss）进行分类训练，使用 L1 损失和 GIoU 损失的组合进行边界框回归训练。总体损失为：

L G ⁣ − ⁣ D I N O = L f o c a l + L l 1 + L G I o U . \mathcal{L}{\mathrm{G\!-\!DIN}\mathrm{O}}=\mathcal{L}{\mathrm{focal}}+\mathcal{L}{l1}+\mathcal{L}{\mathrm{GIoU}}. LG−DINO=Lfocal+Ll1+LGIoU.

3.2 VIS - G - DINO

我们将 Grounding DINO 扩展以支持视觉提示，并将得到的模型称为 VIS - G - DINO。与基于自由形式文本的 G - DINO 不同，VIS - G - DINO 基于视觉提示（即用户在参考图像上指定的边界框）进行检测，无需语言描述即可实现开放集检测。参考图像可以与目标图像相同，也可以来自不同的上下文。

视觉提示编码。我们设计了一个视觉提示编码器 E v i s \mathcal{E}_{vis} Evis，将参考图像上的每个输入边界框转换为一个局部视觉特征。首先使用正弦 - 余弦位置编码对每个边界框进行嵌入，并将其投影以匹配 Transformer 的输入空间。这些嵌入与一个可学习的视觉查询一起，通过可变形交叉注意力关注多尺度图像特征。然后，通过自注意力和前馈层进一步将其精炼为紧凑的视觉提示嵌入，以捕获区域级语义。该过程可表示为：

Q E v i s p o s = Linear ⁡ ( P ( b 1 , . . . , b N ) ) : R N × 4 C → R N × C , Q E v i s ′ = MSDeformAttn ⁡ ( Q E v i s , Q E v i s p o s , b , I ^ ) , v = FFN ⁡ ( SelfAttn ⁡ ( Q E v i s ′ ) ) . \begin{aligned}{\mathbf{Q}{\mathcal{E}{v i s}}^{p o s}}&{{}=\operatorname{Linear}(\mathcal{P}(\mathbf{b_{1}},...,\mathbf{b_{N}})):\mathbb{R}^{N\times4C}\rightarrow\mathbb{R}^{N\times C},}\\ {\mathbf{Q}{\mathcal{E}{v i s}}^{\prime}}&{{}=\operatorname{MSDeformAttn}(\mathbf{Q}{\mathcal{E}{v i s}},\mathbf{Q}{\mathcal{E}{v i s}}^{p o s},\mathbf{b},\hat{\mathbf{I}}),}\\ {\mathbf{v}}&{{}=\operatorname{FFN}(\operatorname{SelfAttn}(\mathbf{Q}{\mathcal{E}{v i s}}^{\prime})).}\end{aligned} QEvisposQEvis′v=Linear(P(b1,...,bN)):RN×4C→RN×C,=MSDeformAttn(QEvis,QEvispos,b,I^),=FFN(SelfAttn(QEvis′)).

语义对齐与提示采样。为了加强语义一致性，我们在视觉提示和对应的文本嵌入之间进行区域级对比学习。这将视觉提示锚定在与预训练语言模型相同的语义空间中。在训练过程中，我们对视觉提示进行随机采样以提高泛化能力。具体而言，在每个批次中，每个类别随机采样 M ˘ \breve{M} M˘ 个提示，以形成最终的视觉指令 v \mathbf{v} v。我们发现 M = 1 M = 1 M=1 能在多样性和稳定性之间取得最佳平衡。

图像 - 提示融合与查询选择。遵循 G - DINO 的架构，我们通过多模态特征增强器 F I , ı \mathcal{F}{I,\imath} FI, 融合图像特征和视觉提示，以获得精炼后的图像特征 I ′ \mathbf{I}' I′ 和视觉提示特征 v ˉ ′ \bar{\mathbf{v}}' vˉ′。为了引导检测过程，我们引入了一种视觉引导的查询选择机制。给定精炼后的图像标记 I ′ \mathbf{I}' I′ 和视觉提示特征 v ˉ ′ \bar{\mathbf{v}}' vˉ′，我们通过点积计算图像 - 提示相似度矩阵。对于每个图像标记，我们取其在提示轴上的最大相似度作为其目标得分，表示在该位置存在提示目标的可能性。我们选择目标得分最高的前 N c N{c} Nc 个图像标记作为解码器查询的位置嵌入。前 N q N_{q} Nq 个索引的选择可表示为：

Idx ⁡ N ⋄ v = T o p N ⋄ ( Max ⁡ ( − 1 ) ( I ′ ⋅ v ˉ ′ ⊤ ) ) . \operatorname{Idx}{N{\diamond}}^{v}=\mathbf{Top}{N{\diamond}}(\operatorname{Max}^{(-1)}(\mathbf{I}^{\prime}\cdot\bar{\mathbf{v}}^{'\top})). IdxN⋄v=TopN⋄(Max(−1)(I′⋅vˉ′⊤)).

对应的区域作为粗略候选框，而查询的内容嵌入仍然是可学习的。其余阶段与 G - DINO 流程相同。

总体训练目标。VIS - G - DINO 模型使用复合目标进行优化：

L V I S ⁣ − ⁣ G ⁣ − ⁣ D I N O = L c o n t r a + L f o c a l + L L 1 + L G I o U , \mathcal{L}{\mathrm{VIS\!-\!G\!-\!DINO}}=\mathcal{L}{\mathrm{contra}}+\mathcal{L}{\mathrm{focal}}+\mathcal{L}{\mathrm{L1}}+\mathcal{L}_{\mathrm{GIoU}}, LVIS−G−DINO=Lcontra+Lfocal+LL1+LGIoU,

其中， L c o n t r a \mathcal{L}_{\mathrm{contra}} Lcontra 促进语义对齐，其余损失遵循标准的检测目标，用于分类和定位。

3.3 群组相对查询优化

视觉提示检测要求对象查询与共享相同语义的高度多样化的视觉示例对齐。这种设置比语言提示引入了更大的类内方差，要求模型既要记住多样化的外观，又要对未见过的变化进行泛化。受大语言模型（LLMs）社区中GRPO[1]泛化能力的启发，我们提出了群组相对查询优化（Group Relative Query Optimization，简称GRQO，图2）------一种新颖的训练范式，通过基于群组的奖励建模和分布正则化来提高查询质量和学习稳定性。

查询级相对奖励。在DETR风格的架构中，查询通过自注意力和交叉注意力在各层之间进行交互，并作为检测能力的主要载体。然而，标准的一对一二分匹配提供的监督较为稀疏，仅更新一小部分查询，而其他查询则未得到充分优化（图1）。为了解决这一问题，我们引入了一种查询级奖励机制，对所有查询进行密集监督。我们不再仅依赖二分匹配将梯度反向传播到有限的查询子集，而是根据每个查询与真实实例的对齐质量为其计算一个辅助奖励信号。具体而言，对于每个解码器查询预测 Q v p r e d {\bf Q}_{v}^{p r e d} Qvpred，我们计算其与同一图像内真实实例之间的成对匹配成本。匹配成本是分类项和定位项的加权和：

C i , j = λ f o c a l C f o c a l ( q v p r e d i , g j ) + λ l 1 C l 1 ( q v p r e d i , g j ) + λ G I o U C G I o U ( q v p r e d i , g j ) . \small\begin{aligned}{\mathcal{C}^{i,j}=\lambda_{f o c a l}\mathcal{C}{f o c a l}(\mathbf{q}{v}^{p r e d_{i}},\mathbf{g}^{j})+\lambda_{l1}\mathcal{C}{l1}(\mathbf{q}{v}^{p r e d_{i}},\mathbf{g}^{j})+\lambda_{G I o U}\mathcal{C}{G I o U}(\mathbf{q}{v}^{p r e d_{i}},\mathbf{g}^{j}).}\\ \end{aligned} Ci,j=λfocalCfocal(qvpredi,gj)+λl1Cl1(qvpredi,gj)+λGIoUCGIoU(qvpredi,gj).

选择真实实例中的最小总成本作为评估查询质量的指标。查询 i i i的奖励 r i r_{i} ri定义为该最小成本的倒数：

γ i = min ⁡ i C i , j , r i = − γ i , \gamma_{i}=\operatorname*{min}{i}\mathcal{C}^{i,j},\quad r{i}=-\gamma_{i}, γi=iminCi,j,ri=−γi,

其中 C i , j C_{i,j} Ci,j表示查询 q v p r e d . \mathbf{q}_{v}^{p r e d.} qvpred.与真实实例 g I \mathbf{g}^{\mathcal{I}} gI之间的匹配成本。成本越低，表示对齐越好，因此奖励越高。为了使学习信号更加稳健并利用群组动态，我们对同一样本内的所有查询的奖励进行归一化，以计算相对优势：

A ^ i = r i − μ r σ r \hat{A}{i}=\frac{r{i}-\mu_{r}}{\sigma_{r}} A^i=σrri−μr

其中 μ r \mu_{r} μr和 σ r \sigma_{r} σr分别是群组内奖励的均值和标准差。这种群组归一化优势提供了稳定、可比的梯度，鼓励所有查询相对于动态群组基线进行改进。

图3：SFT和GRQO在视觉提示检测方面的定性比较。SFT结果既存在误检（第2、3、4行），也存在漏检（第1行），反映出查询表达能力有限，与视觉提示的对齐较弱。相比之下，GRQO产生了更准确、更完整的检测结果，更好地与提示的语义对齐。这些结果凸显了GRQO在高方差视觉输入下增强查询推理和鲁棒性的能力。

KL散度正则化。为了在高方差视觉提示下进一步稳定训练并防止分布漂移，我们在目标概率分布上引入了基于KL散度的正则化项。在我们的设置中，目标分布捕获了模型对图像标记与提示对象相关性的置信度。由于视觉提示的外观和结构多样，这些目标预测可能在迭代过程中波动，导致训练不稳定。为了缓解这一问题，我们使用参考模型分布 O r e f \mathcal{O}{r e f} Oref对当前模型的目标概率分布 O θ \mathcal{O}{\theta} Oθ进行正则化。给定选定的前 N q N_{q} Nq个标记索引，两个分布的生成方式如下：

O θ = M a x ( − 1 ) ( I ′ ⋅ v ˉ ′ ⊤ ) [ I d x N o v ] , O r e f = M a x ( − 1 ) ( I r e f ′ ⋅ v ˉ r e f ′ ⊤ ) [ I d x N o v ] , \mathcal{O}{\theta}=\mathrm{Max}^{(-1)}(\mathbf{I}^{\prime}\cdot\bar{\mathbf{v}}^{'\top})[\mathrm{Idx}{N_{o}}^{v}],\quad\mathcal{O}{r e f}=\mathrm{Max}^{(-1)}(\mathbf{I}{r e f}^{\prime}\cdot\bar{\mathbf{v}}{r e f}^{'\top})[\mathrm{Idx}{N_{o}}^{v}], Oθ=Max(−1)(I′⋅vˉ′⊤)[IdxNov],Oref=Max(−1)(Iref′⋅vˉref′⊤)[IdxNov],

其中 I r e f ′ \mathbf{I}{r e f}^{\prime} Iref′和 v ˉ r e f ′ ⊤ \bar{\mathbf{v}}{r e f}^{'\top} vˉref′⊤分别表示来自参考模型的精炼图像特征和提示特征。然后，计算KL散度如下：

D K L [ O θ ∥ O r e f ] = O r e f ( q i ∣ I , v ˉ ) O θ ( q i ∣ I , v ˉ ) − l o g O r e f ( q i ∣ I , v ˉ ) O θ ( q i ∣ I , v ˉ ) − 1 , \mathcal{D}{K L}[\mathcal{O}{\theta}\parallel\mathcal{O}{r e f}]=\frac{\mathcal{O}{r e f}(q_{i}|\mathbf{I},\bar{\mathbf{v}})}{\mathcal{O}{\theta}(q{i}|\mathbf{I},\bar{\mathbf{v}})}-\mathrm{log}\frac{\mathcal{O}{r e f}(q{i}|\mathbf{I},\bar{\mathbf{v}})}{\mathcal{O}{\theta}(q{i}|\mathbf{I},\bar{\mathbf{v}})}-1, DKL[Oθ∥Oref]=Oθ(qi∣I,vˉ)Oref(qi∣I,vˉ)−logOθ(qi∣I,vˉ)Oref(qi∣I,vˉ)−1,

其中 q i q_{i} qi表示第 i i i个查询标记， O \mathcal{O} O表示在目标图像特征 I \mathbf{I} I和采样视觉提示 v \mathbf{v} v条件下查询的目标分布。这种正则化鼓励当前模型保持接近参考分布，参考分布是早期训练状态的一个冻结副本。通过将学习动态锚定到一个稳定的先验上，KL正则化帮助模型在逐步吸收视觉提示多样性的同时保留可泛化的知识。

总体训练目标。我们提出的GRQO损失引入了群组相对强化信号和正则化，以提高查询质量和学习稳定性。具体而言，GRQO损失定义为：

L G R Q O = − 1 N q ∑ i − 1 N q ( α × A ^ i − β × D K L [ O θ ∥ O r e f ] ) , \mathcal{L}{\mathrm{GRQO}}=-\frac{1}{N{q}}\sum_{i-1}^{N_{q}}(\alpha\times\hat{A}{i}-\beta\times\mathcal{D}{K L}[\mathcal{O}{\theta}\parallel\mathcal{O}{r e f}]), LGRQO=−Nq1i−1∑Nq(α×A^i−β×DKL[Oθ∥Oref]),

其中 α \alpha α和 β \beta β是平衡奖励信号和正则化强度的标量权重。GRQO既激励查询级学习，又激励稳定的目标建模。

为了补充这种群组级监督，我们包含了标准的逐查询检测损失。此外，我们还保留了区域级对比损失 L c o n t r i \mathcal{L}_{\mathrm{contri}} Lcontri，以将视觉提示与相应的语义概念对齐。DINO-R1的最终训练目标由复合目标引导：

L D I N O ⁣ − ⁣ R 1 = L G R Q O + L c o n t r a + L f o c a l + L L 1 + L G I o U . \mathcal{L}{\mathrm{DINO\!-\!R}1}=\mathcal{L}{\mathrm{GRQO}}+\mathcal{L}{\mathrm{contra}}+\mathcal{L}{\mathrm{focal}}+\mathcal{L}{L1}+\mathcal{L}{\mathrm{GIoU}}. LDINO−R1=LGRQO+Lcontra+Lfocal+LL1+LGIoU.

这种多组件损失鼓励DINO-R1同时受益于群组级优化信号和实例级监督，从而实现稳健且可泛化的视觉提示检测。

4 实验

4.1 实验设置

基线模型与基础模型。我们将GRQO与标准的有监督微调（SFT）进行比较。所有实验均使用MM-Grounding-DINO [38]的实现，我们对其进行了适配以支持视觉提示。我们使用视觉示例（带有用户定义边界框的图像）作为输入提示，以引导目标图像中的检测。

数据集与实现细节。我们在两种设置下评估我们的方法：

零样本（领域外评估）。我们进行开放词汇检测，在Objects365（O365）[20]上进行训练，并在COCO[19]、LVIS-minival[58]、ODinW13 [45]和ODinW35 [45]上进行测试。我们将模型训练6个epoch作为SFT基线。对于GRQO，我们首先使用SFT训练1个epoch以获得参考模型，然后应用GRQO进行额外的5个epoch训练。
微调（领域内评估）。我们在COCO训练集上进行12个epoch的微调，并在COCO验证集上进行评估。对于GRQO，我们同时使用SFT和GRQO的预训练权重进行评估。

4.2 主要结果

视觉提示目标检测结果总结在表1中。

在COCO和LVIS上的领域外检测。我们在零样本迁移设置下评估在Objects365上训练的模型。如表1所示，DINO-R1在COCO和LVIS数据集上始终表现出更好的泛化能力。在COCO上，与SFT相比，DINO-R1-T将mAP提高了+4.1 ( 19.9 → 24.0 ) (19.9\rightarrow24.0) (19.9→24.0)。在更具挑战性的LVIS数据集上，该数据集包含长尾类别，DiNO-R1-B在稀有类别上比SFT提高了+3.4 ( 1 ˉ 2. 5 ˉ → 15.9 ) (\bar{1}2.\bar{5}\rightarrow15.9) (1ˉ2.5ˉ→15.9)，这表明其在处理多样化和稀有类别方面具有更强的泛化能力。这验证了GRQO的分组学习和正则化在处理开放词汇视觉条件方面的有效性。图4(a)展示了训练动态，其中DINO-R1相比SFT表现出更稳定的训练。

在现实世界中的领域外检测。我们进一步在ODinW上评估我们的方法，该数据集包含各种现实世界领域。在13数据集和35数据集的ODinW子集上，DINO-R1-L分别比SFT在mAP上高出+8.8和+4.4。这些在不同领域上的一致提升不仅反映了泛化能力的提高，还体现了视觉推理能力的增强。通过使用分组相对奖励和稳定的目标性监督来优化查询，DINO-R1学会了更好地在不同场景和物体风格之间对齐高级语义------这是在开放世界场景中进行视觉上下文推理所必需的属性。我们在图3中提供了定性比较。
表3：查询奖励的设计分析。使用不同组合的焦点、L1和基于IoU的成本对奖励公式进行消融实验。分组相对奖励始终优于绝对变体，而逐层奖励传播（t）进一步增强了性能。

|------------|----|------------|---|-------|------|
| 方法 | 奖励 || | COCO ||
| 方法 | 焦点 | BboxL1 IoU | | 零样本AP | 微调AP |
| SFT | | | | 19.9 | 32.5 |
| GRQO（相对） | | | | 21.3 | 34.1 |
| GRQO（相对） | | | | 22.7 | 33.6 |
| GRQO（相对） | | | | 21.8 | 34.0 |
| GRQO（相对） | | | | 23.5 | 36.8 |
| GRQO（绝对） | | | | 20.1 | 31.4 |
| GRQO（相对） t | | | | 24.0 | 37.2 |

表2：查询级奖励和KL正则化模块的消融实验。两者均单独提高了SFT基线的性能，而在COCO上的两种设置下，将它们结合使用则获得了最高的性能提升。

|-----------------------|---------------------|---------------------|
| 方法 | COCO 零样本|微调 ||
| | AP | AP |
| 仅SFT 仅奖励仅KL-Div GRQO | 19.9 22.8 21.0 24.0 | 32.5 36.1 34.2 37.2 |

在COCO上的领域内检测。在COCO上的闭集检测设置下，GRQO在多种训练策略下也提供了一致的性能提升。当使用GRQO对SFT预训练模型进行微调时，DINO-R1-L达到了43.5 mAP，比继续SFT训练（39.2 mAP）高出+4.3。值得注意的是，使用GRQO预训练模型作为起点带来了更大的改进，DINO-R1比SFT基线高出+4.9 mAP。这些结果表明，GRQO不仅具有更好的泛化能力，还提高了同一领域内的训练效率和有效性。

4.3 消融实验

各组件的有效性。为了评估GRQO中两个关键组件------查询级相对奖励和KL散度正则化的贡献，我们通过独立启用每个模块进行受控消融实验。表2显示，对于领域外和领域内检测，这两个组件都单独提高了SFT基线的性能。具体来说，奖励模块带来了2.9和3.6 mAP的性能提升，而KL正则化则贡献了1.1和1.7 mAP的性能提升。当同时应用这两个组件时，完整的GRQO框架在两种设置下分别比SFT基线高出4.1和4.7。这些结果证实了两个模块都是有益的，并且它们的结合进一步增强了模型在视觉提示设置下的泛化能力。

查询奖励设计。我们对用于优化查询质量的奖励函数中的设计选择进行了消融实验。由于我们的目标是通过视觉提示进行准确检测，因此我们考虑了分类和定位线索来制定奖励。我们测试了分类奖励（反向焦点成本）、定位奖励（反向L1和GIoU）。此外，我们还比较了使用绝对奖励值与分组相对奖励值。

如表3所示，将所有三个组件与分组相对奖励结合使用达到了23.5和36.8 mAP的最佳性能。值得注意的是，相对奖励比绝对奖励高出3.4和5.4 mAP，这表明分组归一化提高了奖励的稳定性，并允许模型关注查询间的可区分性而非绝对查询质量，后者通常对实例级噪声敏感。
表4：GRQO中损失权重的影响。我们改变了查询级奖励和KL正则化损失的缩放比例。最佳性能是在奖励权重为1Oe3和KL权重为O.O4时获得的，这突出了平衡学习信号强度和正则化的重要性。

|------|--------|-------|------|
| 损失权重 || COCO ||
| 奖励 | KL-Div | 零样本AP | 微调AP |
| 1.0 | 0.4 | 20.2 | 33.4 |
| 1.0 | 0.04 | 21.6 | 35.2 |
| 10.0 | 0.04 | 22.4 | 35.1 |
| 10e3 | 0.04 | 24.0 | 37.2 |
| 10e4 | 0.04 | 23.1 | 36.8 |
| 10e3 | 0.004 | 21.5 | 35.3 |

此外，我们检查了一种逐层奖励策略，其中中间解码器层也由奖励函数监督。如表3最后一行所示，这种设计进一步将性能提高了O.5和O.4 mAP，表明早期的查询细化阶段也从强化风格的优化中受益。

损失缩放的影响。我们调查了GRQO对其两个关键损失组件------查询奖励项和KL散度正则化的缩放的敏感性。具体来说，我们在1.O、10.0、1Oe2、1Oe3、10e4范围内变化奖励损失的权重，在0.4、0.04、O.OO4范围内变化KL正则化的权重。如表4所示，当奖励权重设置为1Oe3且KL权重设置为O.O4时，达到了最佳性能。这表明适度的强奖励信号鼓励更有效的查询区分，而过大的权重则导致优化效果不佳。类似地，KL正则化系数O.O4在稳定性和泛化能力之间取得了良好的平衡，有助于模型在训练各种视觉提示时抵抗分布漂移。

提示数量的影响。视觉提示的多样性和数量在训练鲁棒的视觉提示检测器中起着至关重要的作用。我们对训练期间每类随机采样的提示数量进行了消融实验，并进一步评估了推理时不同提示数量的模型性能。如图4(b)©和表5所示，每类仅使用一个随机提示进行训练显著优于使用更多提示的设置。我们假设这是由于采样提示池中增加了多样性和更高的方差，允许模型在更广泛的视觉外观上进行泛化。通过在训练迭代中看到更多不同的示例，模型学习了一个更广泛且更适应的视觉概念空间。相反，在推理期间，随着每类提示数量的增加，性能有所提高，这表明集成风格的提示有助于强化物体身份并减少开放集场景中的歧义。

|-------|-----------|------------|
| # | 训练 | COCO 零样本推理 |
| 1 8 | 24.0 16.4 | 11.2 17.6 |
| 16 | 15.2 | 22.0 |
| 32 64 | 15.1 14.9 | 21.4 24.0 |

表5：提示数量的影响。我们在训练和推理期间改变了每类采样的提示数量。
图4：(a) 比较SFT和GRQO的训练曲线。GRQO始终实现了更稳定的训练，并获得了更高的最终性能。(b)(c) 训练/推理期间每类提示数量的影响。

5 结论

我们介绍了DINO-R1，这是一种新颖的训练范式，它增强了视觉基础模型在视觉提示设置下的推理能力。基于Grounding DINO构建，DINO-R1通过从稀疏的实例级监督转向密集的分组感知优化，重新思考了如何训练目标查询。我们方法的核心是分组相对查询优化（GRQO），它通过查询组内的相对奖励来评估和细化查询------这反映了基于Transformer的检测器中固有的协作推理过程。为了进一步稳定训练并防止遗忘，我们提出了对目标性分布的KL散度正则化，将模型锚定在稳定的表示周围，同时从多样化的提示中逐步学习。这些组件共同为训练在不同领域中具有鲁棒泛化能力、对视觉提示具有更强推理能力，并在开放世界条件的高方差特性下保持稳定的检测器提供了一种有原则且可扩展的方法。我们在COCO、LVIS和ODinW上的广泛实验验证了DINO-R1的有效性，在零样本和微调评估中均显示出比有监督微调的一致改进。

我们相信DINO-R1为密集视觉任务中的强化启发式训练开辟了一个有前景的方向，并为视觉上下文学习、多模态对齐和提示驱动的视觉推理的未来研究奠定了基础。

6 未来工作与局限性

我们的工作主要关注优化策略而非架构增强。DiNO-R1中使用的视觉提示编码器采用了相对简单的设计，以隔离并突出我们GRQO框架的贡献。我们相信有大量空间可以探索更具表现力和结构化的视觉提示编码方法。在未来的工作中，我们计划集成先进的视觉提示架构，将DiNO-R1扩展到更具挑战性和多样化的数据集上，并探索其在其他开放世界设置中的应用，如指代表达理解、检索增强检测和多 shot视觉推理。我们将DiNO-R1视为迈向可扩展、提示驱动的视觉理解的基石步骤------并旨在通过进一步缩小模型灵活性与推理鲁棒性之间的差距来构建这一基础。