LMM-Det：让大型多模态模型在目标检测中脱颖而出

图 1. 在 COCO 验证集上，专业检测器和大型多模态模型进行目标检测的可视化结果。为清晰起见，绿色边界框表示正确预测的框，红色框表示预测错误，蓝色框表示真实标注。具体来说，我们采用 Salience-DETR [13] 作为专业检测器。遵循 RefCOCO 的提示风格，我们向训练好的 LLaVA-7B [23] 提出一系列问题，每个问题针对单个类别，这被称为 LLaVA*。此外，如果满足以下条件，则认定预测框正确：(1) 预测框与真实标注框的交并比大于 0.5；(2) 预测的类别标签与真实标注的类别标签匹配。如上图所示，我们的方法使大型多模态模型能够执行目标检测，取得了与最先进的专业检测方法相当的结果。值得注意的是，LMM-Det 展现出卓越的目标检测能力，而无需在其架构中依赖额外的专业模块。所有图像的详细预测标签可参考附录中的图 A。

摘要

https://arxiv.org/pdf/2507.18300

大型多模态模型因其在多模态理解、推理和上下文学习等方面的卓越能力，在人工智能研究和工业界引起了广泛的关注和兴趣。虽然 LMM 在图像描述、视觉问答和视觉定位等多模态任务上已展现出有前景的结果，但其目标检测能力与专业检测器相比仍存在显著差距。为弥补这一差距，我们摒弃了将重型检测器与 LMM 集成的传统方法，提出了 LMM-Det，这是一种简单而有效的方法，它利用大型多模态模型进行纯目标检测，而无需依赖专门的检测模块。具体来说，我们进行了全面的探索性分析，研究当大型多模态模型遇到目标检测时，其召回率相较于专业检测模型显著下降的问题。为缓解此问题，我们提出通过引入针对目标检测的数据分布调整和推理优化来提高召回率。我们重新组织了指令对话以增强大型多模态模型的目标检测能力。我们主张大型多模态模型无需任何额外检测模块即具备检测能力。大量实验支持了我们的主张，并证明了多功能 LMM-Det 的有效性。数据集、模型和代码可在 https://github.com/360CVGroup/LMM-De 获取。

1. 引言

大型多模态模型 [1, 8, 18, 23, 38, 47, 53] 最近因其在理解和处理多种形式数据方面的卓越能力而受到广泛关注。LMM 在弥合不同模态之间的差距方面表现出显著的有效性，实现了更高效的人机交互。特别是，LMM 在图像描述 [19]、视觉问答 [56] 和视觉定位 [7] 等多种多模态任务中展现出强大的性能。在图像描述任务中，GPT 助手为用户输入的图像生成详细的文本描述。此外，VQA 和视觉定位的目标是生成详细且上下文合适的响应以满足用户需求。这些任务表明，大型多模态模型能够在细粒度上对齐图像和文本，这在目标检测和分割等细粒度图像-文本理解任务中具有巨大潜力。

通常，目标检测是计算机视觉中的一项基本任务，是分类的延伸和分割的基础。此外，获取物体的位置和类别对于有效的视觉理解至关重要。尽管大型多模态模型在各种多模态任务中表现令人印象深刻，但其目标检测能力在近期的研究中仍未得到充分探索。与传统的先进检测方法相比，LMM 在这方面存在显著差距。

为弥补这一差距，现有方法 [27, 42] 尝试将额外模块集成到 LMM 中，例如专门的检测模型 [25, 34] 或区域提议网络 [33]。虽然这些方法可以在用户对话中实现检测能力，但它们受到额外模块性能的限制，并在推理期间引入了额外的延迟。更重要的是，它们并未充分探索 LMM 独立执行目标检测任务的潜力。另一方面，一些研究 [7, 21, 30, 32, 49, 52] 让 LMM 直接输出物体类别和边界框坐标，在视觉定位任务中展示了检测能力。例如，KOSMOS-2 [30] 将定位能力集成到下游应用中并提供相应的边界框。Shikra [7] 设计了一个简单的架构，无需前/后检测模块和外部插件模型来解锁 LMM 的定位能力。然而，这些工作要完成纯目标检测并非易事，后者需要对图像中的所有物体进行定位和分类。

大型多模态模型展现出细粒度图像-文本对齐能力并具备初步检测能力的观察，激励我们进一步研究这一现象。我们的目标是探索 LMM 在不依赖额外专用检测模块的情况下执行目标检测任务的能力。为此，我们强调了当大型多模态模型遇到目标检测时面临的以下固有挑战。

大多数现有的大型多模态模型 [7, 27, 30] 在 RefCOCO [16] 上评估其检测能力，而不是像 COCO [22] 这样的专业检测基准，尽管它们使用大规模目标检测数据集进行预训练。此外，在指令微调阶段通常忽略为纯目标检测定制的指令数据，导致图像内物体的定位和识别效果不佳。这阻碍了在机器人、自动驾驶和增强现实 [27] 等领域的实际应用。

另一方面，大型多模态模型通常生成少量提议边界框，导致目标检测性能较差。例如，如图 1 所示，使用提示"如果图像中存在该句子描述的区域，请提供该区域的边界框坐标：<类别>"时，LLaVA [23] 在检测所有物体方面表现不佳。对于每个查询，LLaVA 仅生成少量边界框，且其中大多数不准确，导致目标检测任务的召回率很低。

本文进行了全面分析，以研究专业目标检测模型与 LMM 之间的性能差距。具体来说，我们在 COCO 这一专业目标检测基准上评估大型多模态模型。通过样本可视化和分布比较，我们断言目标检测任务表现不佳的根本原因是低召回率。为解决此问题，我们提出了 LMM-Det，一种简单而有效的方法，使大型多模态模型在目标检测中表现出色。我们提出通过调整训练数据分布来提高召回率，因为我们观察到训练后的模型倾向于逼近该分布。此外，我们引入了推理优化并提出了一个指令微调数据集。总结来说，我们的主要贡献如下：

我们专注于探索大型多模态模型的检测能力，以释放其在实际应用中的全部潜力。为此，我们提供了全面分析以促进大型多模态模型检测性能的提升。
我们提出了一种名为 LMM-Det

的简单有效的方法，无需任何额外的检测模块。我们引入了数据分布调整和推理优化，以提高大型多模态模型在目标检测中的固有召回率。
大量实验证明，LMM-Det 不仅展现出检测能力，还保留了固有的多模态能力，如图像描述和 VQA。

2. LMM 在目标检测中的检验

为了评估和分析大型多模态模型的检测性能，我们首先从数据规模和图像分辨率的角度设计了一系列实验。然后，我们进行了深入分析，以促进 LMM 更好地适应目标检测。在本节中，我们使用标准的大型多模态模型 LLaVA-7B [23] 进行所有实验。我们选择 RT-DETR [55] 作为代表性专业检测器进行比较。

2.1. 探索性实验

本节进行探索性实验以评估 LMM 的检测能力，实现细节在附录 A 节中提供。

在 COCO 上的零样本检测。检验 LMM 检测性能的一种直接方法是通过零样本评估。因此，我们首先使用 LLaVA [23] 在 COCO 上进行零样本实验。定性结果如图 1 所示，定量结果见表 1 第一行。实验结果表明，在零样本设置下，LLaVA 在 COCO 数据集上表现出较差的检测性能，这可能是由于其训练过程中未包含 COCO 数据。

使用 COCO 进行有监督微调。为了验证上述主张，我们随后利用 COCO 进行有监督微调。如表 1 第二行和第三行所示，检测数据的加入带来了 AP 的显著提升，尽管仍有进一步改进的空间。受传统目标检测方法中扩展数据规模是提高检测精度的有效技术的启发，我们尝试通过增加额外的检测数据来使大型多模态模型在目标检测中表现出色。

图 3. 真实标注和预测的边界框分布。我们使用表 1 第 5 行中的模型来生成边界框。此外，我们提供了损失曲线以确认模型没有过拟合。

扩展检测数据。如前所述，我们通过加入 Object365 来扩展检测数据。从表 1 第四行可以看出，增加更多数据并未带来性能的显著提升。可能的原因是：(1) 低输入图像分辨率不足以执行目标检测；(2) COCO 数据的指令组织方式需要改进。

提升图像分辨率。为确保与专业检测器的公平比较，我们采用插值将图像分辨率从 336 提高到 644，从而与检测器的原生分辨率对齐。如表 1 第 5-6 行所示，使用更高的 644×644 输入分辨率并整合 Object365 确实带来了检测性能的显著提升。然而，尽管在相似分辨率和相同规模的检测数据上训练，LLaVA 的性能仍显著低于传统专业模型。

2.2. 现象分析

为缩小 LMM 与专业检测模型之间的性能差距，我们调查了根本原因。

预测和真实标注的可视化。我们在图 2 底行可视化了生成的带类别信息的边界框及其对应的真实标注。尽管在 AP 上比专业模型低 10.5%，但可视化结果出人意料地令人满意。根据图 1 中指定的标准，我们绘制了不同颜色的框，并在图 2 顶行提供了结果。我们观察到，被判定为假阳性的红色边界框，实际上具有正确的预测标签。同时，真实标注的标签并未完全标注，例如"book"。此外，我们的统计结果显示，COCO 训练集和验证集中每张图像的边界框平均数量约为 7，这也与训练后模型生成的框的平均数量相匹配。一个可能的原因是训练后的模型已经适应了 COCO 数据集的数据分布。

分布比较。我们进一步提供了预测框和真实标注的分布以分析上述观察结果。从图 3 可以看出，预测框的分布近似于 COCO 训练集。然而，不完整的真实标注导致预测过早截断，导致生成的边界框数量较少。此外，当前简单的自回归训练方法导致预测的边界框数量少于专业检测模型。

实际上，传统目标检测方法在提议上保持适当的召回率，例如 Faster RCNN [33] 中的 300 个提议或 H-Deformable-DETR [15] 中的 900 个提议，以平衡检测性能和计算成本。在这种情况下，召回率不足会严重降低检测性能。然而，由于 LMM 在不完整真实标注下的下一个令牌预测损失的固有局限性，让大型多模态模型充当区域提议网络并生成大量高质量提议是具有挑战性的。因此，提高召回率对于提升大型多模态模型的整体检测性能至关重要。

3. LMM-Det

本节介绍 LMM-Det，它通过提高召回率来增强 LMM 的检测能力。我们首先在第 3.1 节介绍模型架构。LMM-Det 的改进包括数据分布调整（第 3.2 节）和推理优化（第 3.3 节）。

3.1. 初步：模型架构

如图 4 © 所示，LMM-Det 由一个视觉编码器、一个投影器和一个大型语言模型组成。

视觉编码器。LMM-Det 采用 OWLv2-ViT 模型 [28] 作为视觉编码器，它支持高分辨率图像输入 ( 1008 × 1008 ) (1008\times1008) (1008×1008)，并捕获用于目标检测的详细信息。

图 4. 提出的 LMM-Det 概述。与其他带有额外模块（如区域提议生成器 (a) 或专业检测模型 (b)）的 LMM 相比，LMM-Det (c) 使 LMM 能够以直接的方式解锁检测能力。

投影器。LLaVA [23] 证明线性投影器足以进行视觉语言对齐。此外，Honeybee [4] 表明线性投影器可以通过一对一的投影保留视觉特征的所有局部上下文信息而无损失。因此，我们使用线性投影器将视觉特征映射到文本令牌的嵌入空间。

大型语言模型。我们使用 Vicuna-1.5-7B 作为大型语言模型，其最大序列长度为 16,000。LMM-Det 使用语言建模损失的范式进行训练以执行令牌预测。形式上，给定一张图像和组织良好的指令文本令牌，我们最大化以下优化问题：

max ⁡ θ ∑ i = 1 L log ⁡ p θ ( y ~ i ∣ x v , x t , y 1 : i − 1 ) , \operatorname*{m a x}{\theta}\sum{i=1}^{L}\operatorname{l o g}p_{\theta}(\widetilde{\mathbf{y}}{i}|\mathbf{x}{v},\mathbf{x}{t},\mathbf{y}{1:i-1}), θmaxi=1∑Llogpθ(y i∣xv,xt,y1:i−1),

其中 θ \theta θ 是可训练参数， x v \mathbf{x}{v} xv 是来自视觉编码器和投影器的视觉令牌， x t \mathbf{x}{t} xt 是来自大型语言模型分词器的指令文本令牌， y 1 : i − 1 \mathbf{y}{1:i-1} y1:i−1 是指令数据中当前预测令牌 y ~ i \widetilde{\mathbf{y}}{i} y i 之前的答案令牌， L L L 是输出序列的长度。

3.2. 数据分布调整

如第 2 节所述，训练集中不完整的真实标注可能导致大型多模态模型的预测过早截断。为缓解此问题，我们调整训练集的数据分布，因为训练后的大型多模态模型倾向于逼近该分布。此外，数据分布调整的过程应达到提高召回率的目标，以增强大型多模态模型的检测性能。为此，一种可能的方法是使用自训练策略，即通过大型多模态模型生成伪标签，并与真实标注标签迭代训练。然而，在不具备强大目标检测能力的大型多模态模型中生成高质量伪标签可能面临挑战。在这项工作中，我们使用半监督学习策略来调整训练数据分布，提高召回率，从而提升 LMM 的检测精度。

具体来说，LMM-Det 的数据分布调整包括三个步骤：1) 伪标签生成。此步骤旨在为训练集中不完整的真实标注准备更多高质量数据。2) 数据合并与设计。将生成的伪标签和原始真实标注标签合并，然后设计以将目标检测应用于 LMM。3) 令牌表示验证。我们研究了不同的令牌表示来表示坐标和置信度分数。

伪标签生成。我们使用高质量伪标签来增强真实标注，从而提升标注多样性。具体而言，我们使用预训练的专业检测器生成若干伪标签。通过这种方式，我们开发了大量的提议以提高大型多模态模型的整体检测性能。值得注意的是，我们的修改仅涉及数据缩放，而我们的 LMM-Det 的架构在预训练和有监督微调阶段均不依赖额外的检测模块。

数据合并与设计。为了去除冗余框并进一步提高数据质量，我们通过执行非极大值抑制来合并生成的伪标签和原始真实标注标签。此外，由于缺少每个预测框的置信度分数，现有的数据组织形式难以在 COCO 上计算平均精度。实际上，我们凭经验观察到，通过每个坐标令牌的平均概率计算出的置信度分数不具备区分度。为解决此问题，我们让大型多模态模型同时输出坐标和相应的置信度分数，而不仅仅是坐标。我们为真实标注标签分配置信度分数 1，而伪标签的置信度分数由预训练的专业检测器确定。

令牌表示验证。我们研究了如何表示坐标及其相应的置信度分数。我们探索了两种替代方案：直接输出令牌预测和扩展词汇表以包含额外令牌。第一种方法增加了模型输出令牌的长度，但不需要额外的词汇嵌入训练；而第二种方法则相反，需要额外的词汇嵌入训练但导致输出令牌更短。第 4.5 节的实验表明，第一种方法实现了更好的检测精度。因此，所有实验均采用该方法。

通过调整训练数据分布，LMM-Det 可以生成更准确和更多的边界框，这可以提高召回率，进而改善整体检测性能。此外，我们凭经验表明，LMM-Det 不仅可以逼近检测数据分布，还能保持逼近其他数据分布（如图像描述和视觉问答）的原始能力，如第 4.4 节所示。

3.3. 针对检测的推理优化

在推理阶段，大型多模态模型中检测输入图像内所有物体的直接方法是同时预测所有边界框，例如 InternVL 2.5 [8]。然而，我们凭经验观察到，这种方法难以通过 LMM 的固定采样策略生成足够的提议。一个可能的原因是当前的 LMM 难以在单个预测步骤中处理所有细粒度的图像细节。我们尝试优化此解决方案，使 LMM-Det 在推理时输出更多提议以提高召回率。

具体来说，我们在计算成本上做出妥协以获得更好的 LMM-Det 检测精度。我们不一次性输出所有边界框，而是让 LMM-Det 在单个步骤中仅输出属于一个类别的所有物体，并重复此步骤多次。也就是说，LMM-Det 独立预测每个类别的边界框。为保持推理和训练之间的一致性，我们重新组织了指令对话以采用特定类别的预测策略。我们在附录的图 B 中展示了重新组织的数据。

4. 实验

4.1. 实现细节

训练方法。我们在三个连续的阶段训练 LMM-Det。附录中的表 B 总结了所有阶段的超参数。我们总共使用 595K 图像-文本对和 1.86M 图像来训练 LMM-Det。训练 LMM-Det 在一个包含 6 个节点的集群上耗时 176 小时，每个节点配备 8 块 Nvidia H800 GPU。以下是每个阶段的细节。

阶段 I。我们通过预训练投影器来对齐视觉和语言模块，同时冻结视觉编码器和大型语言模型。具体来说，我们利用了 LLaVA [23] 中使用的 595K 图像-文本对。

阶段 II。我们利用大规模目标检测数据集来预训练提出的 LMM-Det。在此阶段，我们训练投影器和大型语言模型，同时冻结视觉编码器。

阶段 III。我们基于 COCO 数据集重新组织了一个目标检测指令数据集，COCO 是目标检测任务广泛使用的基准。然后，我们使用此指令数据微调投影器和大型语言模型，以进一步提高 LMM-Det 的检测能力。

（可选）阶段 IV。在此阶段，使用 665k LLaVA [23] 数据集以及我们提出的重新组织的指令数据，在冻结视觉编码器的情况下训练投影器和大型语言模型。

推理与评估。我们在 COCO 的验证集上评估 LMM-Det 的检测能力。对于验证集的每个类别，我们构建相应的提示进行提问。我们收集所有预测输出并将其视为最终提议。我们评估平均精度以获得定量结果。为简单起见，我们用 AP 表示 mAP。我们采用 AP、 A P 50 \mathrm{A P}{50} AP50、 A P 75 \mathrm{A P}{75} AP75、 A P S \mathrm{A P}{\mathrm{S}} APS、 A P M \mathrm{A P}{\mathrm{M}} APM、 A P L \mathrm{A P}_{\mathrm{L}} APL 和 AR@100 作为度量指标。

4.2. 零样本实验

在本节中，我们将 LMM-Det 与先进的大型多模态模型在零样本设置下进行比较。我们采用它们的官方训练模型并以零样本方式测试它们。实现细节在附录中给出。LMM-Det 仅采用第 4.1 节中描述的两个阶段，并舍弃阶段 III。

从表 2 可以看出，LMM-Det 在 COCO 上以零样本方式取得了最佳结果，证明了其在检测数据上训练后的检测潜力。未在检测数据上训练的 LLaVA 在 COCO 上仅获得 0.2 AP。像 InternVL-2.5 这样使用了大量检测数据的模型，比数据有限的模型表现更好。集成了专业检测模型的 Groma 也表现良好。在没有大量检测数据和专业模型的情况下，LMM-Det 显著优于其他 LMM，验证了我们的现象分析和所提出方法的有效性。

4.3. 微调实验

我们进一步在 COCO 上微调 LMM-Det。我们将 LMM-Det 与传统的检测模型和依赖额外检测专家以执行目标检测任务的 LMM 进行比较。具体来说，VisionLLM v2 使用 Grounding DINO 作为额外的专业检测模型。为了全面比较，我们还报告了 Grounding DINO 的结果。

如表 3 所示，传统的先进检测模型优于 Groma，即使 Groma 增强了专业检测模型。类似地，尽管集成了 Grounding DINO，VisionLLM v2 仍表现出性能下降。我们还使用 COCO 和 Object365 数据集重新训练了 LLaVA。实验结果突显了传统先进检测模型与大型多模态模型之间的显著性能差距。然而，LMM-Det 缩小了这一差距，支持了 LMM 无需额外专业检测模型即具备目标检测能力的论点。

图 5. LMM-Det 在 COCO 上的可视化结果。

表 4. 多功能 LMM-Det† 的定量结果。

4.4. 多功能 LMM-Det

我们在图 5 中提供了 LMM-Det 在 COCO 验证集上的可视化结果，展示了其在没有额外专业检测器的情况下的检测性能。此外，定性和定量结果分别证明了 LMM-Det 的多功能性，表明 LMM-Det† 不仅解锁了检测能力，还在图像描述和 VQA 任务中保持了高性能。我们在附录的表 D 中提供了更多结果。

4.5. 消融研究

视觉编码器。我们首先在消融研究中用 OWLv2-ViT [28] 替换 CLIP-ViT [31] 以进一步提高输入分辨率。如表 5 第一行所示，此策略使 AP 提升了 3.4%。我们在附录的表 E 中进一步研究了 DINOv2 [29] 的有效性。

数据分布调整。此方法旨在解决召回率不足的挑战。在表 5 中，它有效地提高了召回率并增强了整体检测性能。我们还在附录的图 C 中绘制了调整后的边界框分布。

推理优化。我们进一步研究了推理优化的有效性。从表 5 可以看出，此策略使 AP 从 44.2% 显著增加到 47.5%，AR@100 从 56.0% 增加到 63.6%。为了更好地可视化召回率的提升，我们扩展了图 2 并在附录的图 D 中展示了定性结果。

额外词汇表的有效性。我们研究了不同的令牌表示来表示坐标和置信度分数。从附录的表 F 可以看出，直接输出令牌比使用额外词汇表获得了更好的性能，这与 Shikra [7] 的发现一致。

采样策略和推理成本的有效性。我们在推理过程中使用贪心解码、束搜索和 top-p 采样进行了消融研究。如附录的表 G 所示，束宽为 2 的束搜索取得了最佳结果，但需要更多推理时间。特别是，LMM-Det 处理单张图像大约需要 4.0 秒的计算时间。

5. 相关工作

5.1. 大型多模态模型

关于大型多模态模型的开创性工作主要关注视觉-语言对齐，并支持基本的跨模态任务，如图像描述和视觉问答。在这种情况下，LMM 已经展示了其在执行多模态任务方面的巨大潜力。

为了进一步展示视觉-语言任务的综合能力，后续的大型多模态模型支持分辨率敏感的任务，如视觉定位和光学字符识别。这些模型利用精心策划的预训练和指令数据集，展示了一种突显其强大能力的有效策略。这类 LMM 涵盖了广泛的模型，例如 Shikra、KOSMOS-2、Ferret v2、MiniCPM-V 2.6、DeepSeek-VL2、InternVL-.5 和 Qwen2.5-VL。与粗粒度的视觉问答相比，这些 LMM 的物体定位能力是其在智能体、机器人、自动驾驶和安全监控等现实世界应用中有效部署的关键前提。在本文中，我们检验了 LMM 的检测潜力。

5.2. LMM 检测能力探索

虽然 LMM 在大多数视觉-语言基准测试中取得了显著成功，但它们在目标检测任务上难以达到可比的性能。现有方法试图在大型多模态模型上实现目标检测。例如，VisionLLM-v2 将 Grounding-DINO 引入 LMM，并使用特殊令牌来执行目标检测。Groma 采用区域提议器来发现感兴趣区域，以解锁 LMM 的检测能力。相反，本文旨在研究大型多模态模型在不借助专业检测模型或提议网络的情况下的目标检测能力。

6. 结论与局限性

LMM-Det 解决了 LMM 与专业检测器之间的检测性能差距，且无需依赖额外模块。具体来说，我们提供了全面的探索性分析，并总结出关键挑战在于召回率不足。我们使 LMM-Det 在目标检测中表现出色，同时保留了其固有的能力，如图像描述生成和 VQA。此外，LMM-Det 存在不可忽视的推理时间延迟，使其在与传统实时检测相比时竞争力较弱。未来，我们将尝试减少 LMM-Det 的推理时间。

7. 致谢

我们衷心感谢来自南洋理工大学的 Shuaicheng Niu 和来自 360 AI Research 的 Xiaole Zhu 提供的宝贵讨论和反馈。