南京理工大学联手百度、商汤科技等团队推出Artemis：用结构化视觉推理革新多模态感知

近年来，大语言模型（LLM）在推理能力上突飞猛进，特别是通过强化学习（RL）激发的"思维链"（Chain of Thought）技术，使模型能够进行多步推理以解决复杂问题。受此启发，研究人员尝试将这种语言推理范式引入多模态大模型（MLLM）的视觉感知任务中。然而，实证研究表明，简单的语言中间推理往往会导致感知性能下降，甚至产生与图像内容无关的"幻觉"。

为什么会出现这种现象？来自南京理工大学、新加坡科技设计大学、阿德莱德大学、百度、Data61-CSIRO以及商汤科技的研究团队在最新论文《Artemis: Structured Visual Reasoning for Perception Policy Learning》中给出了深刻的见解。核心问题不在于"推理"本身，而在于"推理的形式"。视觉感知的本质要求在空间和以对象为中心（Object-Centric）的结构化环境中进行推理，而不在非结构化的语言空间中进行"空谈"。

论文标题：Artemis: Structured Visual Reasoning for Perception Policy Learning

论文链接：

代码仓库： ****

问题洞察：语言推理的局限与结构化视觉推理的必然

当现有MLLM面对如"找出最矮的运动员"这类指令时，它们往往依赖类似语言模型的"内部独白"进行推理。这种纯语义的推理过程缺乏视觉基础，容易产生无关或错误的中间描述，最终导致定位失败。相比之下，人类的感知过程是典型的结构化视觉推理：我们首先快速扫描整个场景，定位可能相关的区域，然后逐步聚焦、比较，最终锁定目标对象。

Artemis的诞生：让MLLM学会"先看后想，边看边推"

为了克服上述局限，研究团队提出了 Artemis ------ 一个基于强化学习的感知策略学习框架。该框架的命名灵感来源于古希腊神话中的狩猎女神阿尔忒弥斯，以其敏锐的视觉和百发百中的精准度著称，寓意着模型所追求的核心能力。

Artemis的核心创新在于要求模型提供结构化的视觉推理证据。在生成最终答案前，模型必须在特定的思考阶段输出一系列 (标签，边界框) 对。这些对直接代表了模型在图像中定位到的视觉实体，构成了可验证、可追踪的中间视觉状态。

结构化视觉推理奖励： 这是Artemis的灵魂。它设计了一套精细的奖励机制，不仅鼓励模型找出最终答案的关键对象，也奖励其识别出相关的上下文对象。这就像解题时，不仅要求答案正确，还要求列出关键的已知条件和推导步骤。
统一的结果奖励： 包括格式奖励（确保输出结构规范）和答案奖励（基于预测框与真值框的重叠度及标签一致性）。
高效的训练算法： 采用群组相对策略优化（Group Relative Policy Optimization, GRPO）算法，高效地优化整个感知策略。

强大的训练基础：Artemis-RFT数据集

为了训练Artemis，团队构建了Artemis-RFT数据集。该数据集基于MS-COCO构建，包含约7.7万个实例，统一了视觉定位（Visual Grounding）和目标检测（Object Detection）两种任务格式。模型被训练在给出最终答案（绿色框）之前，先输出中间推理步骤（紫色框）来标识相关对象，从而学会结构化的视觉推理流程。

Artemis-RFT数据示例。该数据集包含两种任务类型：视觉定位和对象检测，统一的Artemis感知策略学习框架在两者上联合训练。紫色框表示推理对象，绿色框表示答案。

如上图所示，Artemis 要求模型在给出最终答案（绿色框）之前，先通过推理（紫色框）识别出场景中的相关对象。这种训练方式让模型学会了"先看后答"。

卓越的性能表现：全面领先，泛化惊人

Artemis基于Qwen2.5-VL-3B模型构建，在多个基准测试中取得了突破性成果：

视觉定位与检测任务

在RefCOCO/+/g系列基准测试中，Artemis在所有指标上均达到领先水平，尤其在要求极高的IoU@0.95指标上优势显著，证明了其边界框预测的精准度。在COCO目标检测任务上，其mAP达到31.0，远超基座模型的15.4。

惊艳的零样本泛化能力
视觉计数： 在从未接受过计数任务训练的情况下，Artemis在Pixmo-Count数据集上的零样本准确率高达81.4，甚至超过了专门为计数设计的模型。它通过结构化地"列举"出图像中的目标对象来完成计数，模仿了人类的点数行为。

几何图形感知： Artemis能够将其在自然图像中学到的结构化感知能力，稳健地迁移到数学几何图形领域。在MATHGLANCE基准测试（涵盖平面几何、立体几何、图表题）中，它同样表现出色，实现了从真实场景到抽象图示的跨域泛化。

综合多模态能力

在MMBench、MMVet等主流多模态理解基准测试中，Artemis保持了竞争优势，表明其增强的感知能力有益于整体的多模态推理。

消融分析：验证结构化推理的核心价值

研究团队通过系统的消融实验证实：

无推理： 域内任务尚可，但域外泛化能力极差。
纯语言推理： 会干扰感知过程，导致性能下降，尤其在计数等任务上。
结构化视觉推理： 是性能全面提升和获得强大零样本泛化能力的关键。

可视化展示

Artemis 通过紫色的推理框精准地定位了场景中的关键要素，从而给出了正确的红色答案框。相比之下，其他模型要么定位错误，要么完全偏离目标。

在计数任务中，Artemis 展现了类似人类的"点数"行为，通过逐个标记目标（紫色框）来得出正确的总数，而基座模型 Qwen2.5-VL 则出现了严重的幻觉，标记了大量重复或错误的框。

技术贡献与产业影响

Artemis的工作首次系统性地证明：通过单一、统一的结构化视觉推理训练，可以使MLLM获得跨任务、跨领域的强大感知泛化能力。这项研究为MLLM的感知能力与空间推理能力的对齐指明了新方向。

结论

Artemis的出现标志着MLLM感知研究的一个重要转折点：它告诉我们，对于视觉任务，"如何思考"与"思考什么"同样重要，甚至更为关键。将推理过程空间化、结构化、可验证化，是解锁MLLM可靠感知与推理能力的关键。这项工作为构建下一代真正理解物理世界、能进行复杂空间交互的智能体奠定了坚实的基础。