南京理工大学联手百度、商汤科技等团队推出Artemis:用结构化视觉推理革新多模态感知

近年来,大语言模型(LLM)在推理能力上突飞猛进,特别是通过强化学习(RL)激发的"思维链"(Chain of Thought)技术,使模型能够进行多步推理以解决复杂问题。受此启发,研究人员尝试将这种语言推理范式引入多模态大模型(MLLM)的视觉感知任务中。然而,实证研究表明,简单的语言中间推理往往会导致感知性能下降,甚至产生与图像内容无关的"幻觉"。

为什么会出现这种现象?来自南京理工大学、新加坡科技设计大学、阿德莱德大学、百度、Data61-CSIRO以及商汤科技的研究团队在最新论文《Artemis: Structured Visual Reasoning for Perception Policy Learning》中给出了深刻的见解。核心问题不在于"推理"本身,而在于"推理的形式"。视觉感知的本质要求在空间和以对象为中心(Object-Centric)的结构化环境中进行推理,而不在非结构化的语言空间中进行"空谈"。

论文标题:Artemis: Structured Visual Reasoning for Perception Policy Learning

论文链接:

代码仓库: ****

问题洞察:语言推理的局限与结构化视觉推理的必然

当现有MLLM面对如"找出最矮的运动员"这类指令时,它们往往依赖类似语言模型的"内部独白"进行推理。这种纯语义的推理过程缺乏视觉基础,容易产生无关或错误的中间描述,最终导致定位失败。相比之下,人类的感知过程是典型的结构化视觉推理:我们首先快速扫描整个场景,定位可能相关的区域,然后逐步聚焦、比较,最终锁定目标对象。

Artemis的诞生:让MLLM学会"先看后想,边看边推"

为了克服上述局限,研究团队提出了 Artemis ------ 一个基于强化学习的感知策略学习框架。该框架的命名灵感来源于古希腊神话中的狩猎女神阿尔忒弥斯,以其敏锐的视觉和百发百中的精准度著称,寓意着模型所追求的核心能力。

Artemis的核心创新在于要求模型提供结构化的视觉推理证据。在生成最终答案前,模型必须在特定的思考阶段输出一系列 (标签,边界框) 对。这些对直接代表了模型在图像中定位到的视觉实体,构成了可验证、可追踪的中间视觉状态。

  • 结构化视觉推理奖励: 这是Artemis的灵魂。它设计了一套精细的奖励机制,不仅鼓励模型找出最终答案的关键对象,也奖励其识别出相关的上下文对象。这就像解题时,不仅要求答案正确,还要求列出关键的已知条件和推导步骤。
  • 统一的结果奖励: 包括格式奖励(确保输出结构规范)和答案奖励(基于预测框与真值框的重叠度及标签一致性)。
  • 高效的训练算法: 采用群组相对策略优化(Group Relative Policy Optimization, GRPO) 算法,高效地优化整个感知策略。

强大的训练基础:Artemis-RFT数据集

为了训练Artemis,团队构建了Artemis-RFT数据集。该数据集基于MS-COCO构建,包含约7.7万个实例,统一了视觉定位(Visual Grounding)和目标检测(Object Detection) 两种任务格式。模型被训练在给出最终答案(绿色框)之前,先输出中间推理步骤(紫色框)来标识相关对象,从而学会结构化的视觉推理流程。

Artemis-RFT数据示例。该数据集包含两种任务类型:视觉定位和对象检测,统一的Artemis感知策略学习框架在两者上联合训练。紫色框表示推理对象,绿色框表示答案。

如上图所示,Artemis 要求模型在给出最终答案(绿色框)之前,先通过推理(紫色框)识别出场景中的相关对象。这种训练方式让模型学会了"先看后答"。

卓越的性能表现:全面领先,泛化惊人

Artemis基于Qwen2.5-VL-3B模型构建,在多个基准测试中取得了突破性成果:

  • 视觉定位与检测任务

在RefCOCO/+/g系列基准测试中,Artemis在所有指标上均达到领先水平,尤其在要求极高的IoU@0.95指标上优势显著,证明了其边界框预测的精准度。在COCO目标检测任务上,其mAP达到31.0,远超基座模型的15.4。

  • 惊艳的零样本泛化能力

  • 视觉计数: 在从未接受过计数任务训练的情况下,Artemis在Pixmo-Count数据集上的零样本准确率高达81.4,甚至超过了专门为计数设计的模型。它通过结构化地"列举"出图像中的目标对象来完成计数,模仿了人类的点数行为。

  • 几何图形感知: Artemis能够将其在自然图像中学到的结构化感知能力,稳健地迁移到数学几何图形领域。在MATHGLANCE基准测试(涵盖平面几何、立体几何、图表题)中,它同样表现出色,实现了从真实场景到抽象图示的跨域泛化。
  • 综合多模态能力

在MMBench、MMVet等主流多模态理解基准测试中,Artemis保持了竞争优势,表明其增强的感知能力有益于整体的多模态推理。

消融分析:验证结构化推理的核心价值

研究团队通过系统的消融实验证实:

  • 无推理: 域内任务尚可,但域外泛化能力极差。
  • 纯语言推理: 会干扰感知过程,导致性能下降,尤其在计数等任务上。
  • 结构化视觉推理: 是性能全面提升和获得强大零样本泛化能力的关键。
  • 可视化展示

Artemis 通过紫色的推理框精准地定位了场景中的关键要素,从而给出了正确的红色答案框。相比之下,其他模型要么定位错误,要么完全偏离目标。

在计数任务中,Artemis 展现了类似人类的"点数"行为,通过逐个标记目标(紫色框)来得出正确的总数,而基座模型 Qwen2.5-VL 则出现了严重的幻觉,标记了大量重复或错误的框。

技术贡献与产业影响

Artemis的工作首次系统性地证明:通过单一、统一的结构化视觉推理训练,可以使MLLM获得跨任务、跨领域的强大感知泛化能力。这项研究为MLLM的感知能力与空间推理能力的对齐指明了新方向。

结论

Artemis的出现标志着MLLM感知研究的一个重要转折点:它告诉我们,对于视觉任务,"如何思考"与"思考什么"同样重要,甚至更为关键。将推理过程空间化、结构化、可验证化,是解锁MLLM可靠感知与推理能力的关键。这项工作为构建下一代真正理解物理世界、能进行复杂空间交互的智能体奠定了坚实的基础。

相关推荐
天才少女爱迪生2 小时前
图像序列预测有什么算法方案
人工智能·python·深度学习·算法
cici158742 小时前
3D有限元直流电阻率法正演程序
算法·3d
劈星斩月2 小时前
计算机视觉-OpenCV-学习系列
opencv·计算机视觉
黑色的山岗在沉睡2 小时前
滤波算法数学前置——线性化
线性代数·算法
t198751282 小时前
火电机组热经济性分析MATLAB程序实现
人工智能·算法·matlab
Hello娃的2 小时前
【半导体】肖特基接触AND欧姆接触
人工智能·算法
橘颂TA2 小时前
【剑斩OFFER】算法的暴力美学——交易逆序对的总数
数据结构·算法·leetcode
xiyuping242 小时前
强化学习之——moutaincar
算法·机器学习
小画家~2 小时前
第三十七:类型断言
开发语言·c++·算法·golang