在追求通用人工智能的道路上,抽象推理能力一直被视为皇冠上的明珠。Abstraction and Reasoning Corpus(ARC)基准,正是为了衡量这种核心能力而设计。它包含了数百个独特的"视觉谜题",每个任务仅提供2-4个示例,要求模型洞察背后的核心规则,并解答新的问题。
尽管ARC任务以网格图像形式呈现,但绝大多数前沿研究都将其视为一个符号推理问题,依赖于在大规模文本上预训练的大型语言模型(LLM)进行求解。然而,麻省理工学院(MIT)的一项最新研究发出了一个响亮的声音:ARC本质上是一个视觉问题! 他们提出的纯视觉框架VARC,在仅使用ARC数据、从零开始训练的情况下,取得了媲美主流LLM、接近人类平均水平的惊人成绩。
重新审视ARC:被忽略的"视觉本质"
为何说ARC是一个视觉问题?论文作者给出了有力的论据:
核心概念是视觉的:ARC中大量的任务规则,如对称、旋转、反射、重力、包围、连接等,都是人类从对物理世界和视觉空间的观察中抽象出来的基本概念。下图清晰地展示了这一点:

人类依赖视觉常识:人类在解决ARC任务时,并不仅仅是分析几个示例,更是在调用我们通过双眼观察世界所积累的视觉先验(例如,物体在重力作用下会下落)。
图像的天然优势:将ARC视为图像,可以自然地引入计算机视觉中成熟的归纳偏置,如空间局部性、平移不变性和尺度不变性,这对于模型理解空间关系至关重要。
然而,此前将视觉模型应用于ARC的尝试均未能实现真正的跨任务泛化。VARC的突破在于,它成功地将视觉框架与ARC"小样本、多任务"的核心挑战相结合。
VARC框架详解:如何用"视觉"解决"推理"
VARC的核心思想非常直观:将ARC重新定义为图像到图像的翻译问题。其技术框架包含以下几个关键创新:
- "画布"范式与视觉先验
这是VARC的灵魂所在。研究团队没有直接处理小尺寸的原始网格,而是设计了一个固定的"画布",并将输入网格通过随机缩放和随机平移放置其上。

作用:这使得模型能够像处理自然图像一样处理ARC任务,并通过对平移和尺度的数据增强,强制模型学习平移不变和尺度不变的变换规则,而非记忆像素位置。
- 纯视觉架构
处理画布上的"图像"时,VARC直接采用了标准的视觉架构,如Vision Transformer (ViT)。

- 两阶段训练策略
离线训练:在包含400个任务的ARC训练集上,训练一个统一的模型。所有任务共享主干参数,仅通过一个特定的"任务令牌"进行条件化。这使得模型能够学习跨任务的通用视觉变换知识。
测试时训练:当遇到一个全新的测试任务时,VARC会利用该任务提供的少数几个演示样例,对模型进行快速微调。这个过程相当于让模型"临阵磨枪",快速适应新任务的特定规则,是实现小样本泛化的关键。下图展示了测试时训练的效果:

小模型,大能量
VARC在权威的ARC-1基准上取得了突破性的成果:
视觉先验贡献巨大:如下图的消融实验所示,2D位置编码、图块化、平移与缩放增强等视觉先验,共同带来了27.7% 的惊人性能提升。

系统级对比:

单模型性能:参数量仅1800万的VARC模型,达到了54.5% 的准确率。
集成模型性能:通过模型集成,准确率进一步提升至60.4%。
对比优势:大幅超越同样从零训练的循环推理模型,性能与许多需要互联网规模数据预训练的千亿参数LLM相当,并首次以纯视觉方法接近了报告的人类平均绩效(60.2%)。
这些结果强有力地证明:抽象推理并非语言的专利,视觉通路本身具备强大的归纳与泛化能力。
启示与未来:Coovally如何赋能视觉推理的探索与落地
VARC研究的成功,为AI社区,特别是视觉AI领域带来了深远的启示,而这正与Coovally平台的使命与能力不谋而合。
- 强化视觉先验,Coovally提供即插即用的工具集
VARC证明了视觉先验(如2D空间结构、数据增强)对于抽象任务至关重要。Coovally平台内置了丰富的数据增强模块(包括平移、缩放、旋转等)和多种现代视觉模型(如ViT、U-Net家族)

研究人员和开发者可以轻松复现或借鉴VARC的"画布"思想,在自己的视觉推理任务上进行快速实验和迭代。
!!点击下方链接,立即体验Coovally!!
平台链接: www.coovally.com
- 支持小样本学习与测试时自适应
VARC的核心创新之一在于测试时训练(TTT)。Coovally的灵活训练pipeline允许用户针对特定任务快速进行微调,完美支持这种"元学习"或"测试时自适应"的先进范式,帮助模型在数据稀缺的场景下实现性能突破。
- 为多模态推理铺平道路
VARC并非要否定语言模型的作用,而是提供了一个强大的互补视角。未来,融合视觉与语言的多模态模型将是解决复杂抽象推理的关键。Coovally平台正在持续构建其多模态能力,致力于成为连接视觉感知与语言推理的桥梁,让开发者能够更便捷地构建下一代智能系统。
总结
MIT的VARC研究完成了一次漂亮的"范式转换",它告诉我们:有时,解决一个复杂问题的最优雅方式,是回归其最本质的形态。对于ARC而言,其本质就是视觉。
这项工作不仅为ARC挑战赛打开了新局面,更为我们指明了前进的方向:通往更通用人工智能的道路,必须重视并深度融合视觉本身所蕴含的强大推理能力。
而像Coovally这样兼具灵活性与强大功能的AI平台,将成为每一位探索者在这条道路上最得力的助手,加速从学术灵感向产业应用的跨越。