从ARC-AGI-1到ARC-AGI-2:AGI基准的演进与AGI定义的深化

传统AI基准测试通常侧重于特定领域或严重依赖可记忆的庞大数据集。ARC-AGI-2 采取了一种根本不同的方法,其目标是认知科学家所说的"流体智能"------即在不依赖大量先验知识或领域专业知识的情况下,对新情况进行推理和解决问题的能力。不同于ARC-AGI-1,ARC-AGI-2更加注重多规则组合多步骤推理上下文规则应用上下文符号定义这四个方面,从而提高了"暴力破解 "的难度。

ARC-AGI-1数据集

该数据集由一系列推理任务组成,这些任务以离散符号网格(显示为彩色单元格)对的形式呈现。每个任务包含少量(通常为2-5个)演示对,每个演示对展示了一个输入网格根据某些潜在的、未明说的规则转换为输出网格的过程。测试对象(人类或AI)的目标是从这些少量示例中推断出规则,并将其正确应用于一个或多个未见过的测试输入网格,以生成相应的输出网格。网格尺寸各不相同,但上限为30×30,最多使用10种不同颜色。具体示例可见图1。

  1. 它旨在抵抗过拟合和记忆,纯粹专注于通用流体智力。任何任务都不应能提前准备,数据集中的每个任务都是独一无二的。
  2. 它最大程度减少对先验知识的需求。ARC-AGI任务仅需要一组核心的先天人类认知先验,如物体恒存性、目标导向性、基础数感(计数)以及基本几何和拓扑概念(连通性、对称性)(10)。关键的是,解决问题完全不需要专业的世界知识(如历史事实)或语言能力,这使其与常用于评估大语言模型的知识密集型基准测试截然不同。
  3. 对于未经特殊训练的普通人来说是可行的。

ARC-AGI-1 到 ARC-AGI-2 的主要发展进程

  1. ARC-AGI-1的诞生与定位(2019-2024)
    • 于2019年由François Chollet提出,旨在评估一种更通用、更类人的"流体智力",即无需大量先验知识即可解决新问题的能力。
    • 其核心特征是:抗过拟合、最小化先验知识需求、对普通人可行。
    • 通过一系列竞赛(如ARC Prize 2024),推动了社区探索。进展起初缓慢,但后期通过测试时自适应(TTA) 等计算密集型方法,成绩大幅提升。
    • 2024年末竞赛结束后不久,OpenAI处于内部测试阶段的"o3"模型预览版在ARC-AGI-1半私有评估数据集上展现出卓越性能。该模型在测试阶段投入大量计算资源,分别获得76%(低算力模式;单任务成本约200美元)和88%(高算力模式;单任务成本约20,000美元)的得分(12),首次超越名义人类基线。后续公开发布的o3版本虽表现有所回落但仍保持强劲(如o3-medium在半私有集上获得53%)(11),该预览结果表明ARC-AGI-1在消耗巨大算力的测试时自适应范式下正逐渐接近饱和。
  2. ARC-AGI-1的局限性催生升级
    • 随着研究的深入,ARC-AGI-1暴露出关键局限,使其作为AGI基准的信效度受到挑战:
      • 易受非泛化策略影响:近半数任务可被暴力程序搜索攻克,奖励了算力而非智能。
      • 提前饱和:基准在未能全面捕捉人类流体智力全谱系前就已接近被"解决"。
      • 信息泄露风险:长期使用同一私有测试集,导致模型可能"针对性地适应"而非"泛化地学习"。
      • 人类基线数据不统一:缺乏可靠的第一方人类表现数据作为严谨的比对基准。
      • 难度分布不一致:基于实证得分,ARC-AGI-1在不同数据子集间存在难度分布潜在不一致问题(即公开评估集普遍被认为比私有评估集更简单)。若各子集不能代表底层任务难度分布的等效抽样,则得分的可靠解读将变得困难。
  3. ARC-AGI-2的推出
    • 为应对上述局限,开发团队于2021年末启动ARC-AGI-2的开发,旨在保留核心原则的同时,提供一个更具挑战性、信号更清晰、评估更稳健的新基准。

ARC-AGI-2的主要改进及背后理由

ARC-AGI-2的改进并非简单的"增加难度",而是有针对性地重塑基准,以引导AGI研究走向更正确的方向。ARC-AGI-2任务案例:

主要改进 具体内容 改进背后的理由(及对AGI定义的隐含变更)
增强抗暴力破解性 通过设计,最小化任务对简单或计算密集型暴力搜索的敏感性。 理由 :ARC-AGI-1的经验表明,一个真正的AGI基准必须奖励高效的抽象推理,而非纯粹的计算能力 。能抵抗"蛮力"破解,才能确保性能提升源于智能架构的进步。**AGI定义变更:AGI不仅是"能解决问题",更是能够**高效、优雅地解决问题**,其核心是认知的经济性,而非算力的堆砌。
扩展有效信号带宽与校准难度 - 设计精密的任务难度谱系,减少"简单"任务。 - 确保公开、私有、半私有子集在人类难度上保持一致。 理由 :ARC-AGI-1的"提前饱和"和"难度不一致"限制了其区分不同能力系统的作用。**AGI定义变更:AGI应具备一个**更宽广的流体智力谱系**,能够处理从简单到高度复杂的一系列新颖问题。基准必须能精细地区分不同水平的智能体,而非一个简单的"通过/不通过"测试。
确立可靠的人类基线 进行大规模、受控、有报酬的第一方人类测试,获取准确的解题率、耗时等数据。 理由 :缺乏统一的人类基线,使得"超越人类"的说法不严谨。AGI定义变更:将AGI的衡量标准 明确地锚定在人类认知表现上**。它强调AGI不仅要在结果上匹配人类,在解决问题的过程(如耗时、认知努力)上也应具有可比性。ARC-AGI-2的最终任务集平均人类成功率为75%,为AI设定了明确且可实现的目标。
聚焦于组合泛化 任务设计核心转向: - 多规则组合 :并行应用多个相互作用规则。 - 多步骤推理 :需要顺序执行、依赖中间状态的推理链。 - 上下文规则应用 :规则的应用取决于网格中的特定上下文线索。 - 上下文符号定义:在任务内部即时定义符号及其含义。 理由 :这是最核心的改进。ARC-AGI-1的许多任务可被归纳为单一高级变换,而现实世界和人类智能的本质是将基础概念以无限新颖的方式组合起来AGI定义变更:AGI的核心能力被明确定义为 深度的组合泛化**。即系统不仅要掌握基本概念(如物体、对称、计数),更要能根据上下文,动态地、灵活地、创造性地组合这些概念来解决前所未有的问题。这从"模式识别"转向了"概念合成与推理"。

对AI范式的观察

  1. 对主流范式的批判:文本明确指出,推进ARC-AGI需要"超越单纯扩展既往主流深度学习范式"。这暗示当前基于大规模预训练的模型,在本质上可能仍缺乏进行高效、组合式抽象推理的核心能力。
  2. 对测试时自适应(TTA)的矛盾态度 :一方面,TTA(如思维链合成、测试时梯度下降)被证明是提升ARC成绩的有效策略;但另一方面,OpenAI o3模型耗费巨量算力(单任务2万美金)才达到高分,这恰恰凸显了ARC-AGI-1的局限性,并反过来印证了ARC-AGI-2强调"高效推理"的必要性。AGI不应是每次遇到新问题都需"倾其所有"的计算过程。
  3. AGI与领域知识脱钩 :人类测试结果显示,人口统计学因素(职业、技术背景等)与测试结果无显著关联。这强化了ARC的核心理念:AGI所评估的是一种与特定领域知识无关的、更基础的通用认知能力

从ARC-AGI-1到ARC-AGI-2的演进,标志着对AGI的衡量标准从 "能够解决新颖问题""能够像人类一样,通过高效、组合式的抽象推理来解决一系列具有认知挑战性的新问题" 的深刻转变。

作者团队通过系统性地解决第一代基准的缺陷,重新将AGI的定义锚定在人类流体智力的核心特征------组合泛化 上。ARC-AGI-2的推出,不仅是为了给AI系统设置一个更高的障碍,更是为了引导研究社区去探索和构建真正具备类人核心推理能力的智能系统,从而更严谨地衡量通向AGI的进程。

附录当前比赛状态

相关推荐
猫先生Mr.Mao1 天前
2025年8月AGI月评|AI开源项目全解析:从智能体到3D世界,技术边界再突破
人工智能·开源·aigc·agi·ai资讯·分布式推理框架
GMICLOUD1 天前
网易科技专访 GMI Cloud 创始人&CEO Alex Yeh:以“产品+布局+服务”构建全球竞争力
人工智能·科技·ai·gpu算力·agi·ai应用·ai基础设施
猫先生Mr.Mao1 天前
2025年10月AGI月评|OmniNWM/X-VLA/DreamOmni2等6大开源项目:自动驾驶、机器人、文档智能的“技术底座”全解析
人工智能·机器人·大模型·自动驾驶·agi·大模型部署·分布式推理框架
CV视觉6 天前
智能体综述:探索基于大型语言模型的智能体:定义、方法与前景
人工智能·语言模型·chatgpt·stable diffusion·prompt·aigc·agi
是Dream呀10 天前
PRCV 2025:文本何以成为 AGI 的必经之路?
图像处理·人工智能·aigc·agi·多模态·合合信息
猫头虎11 天前
openAI发布的AI浏览器:什么是Atlas?(含 ChatGPT 浏览功能)macOS 离线下载安装Atlas完整教程
人工智能·macos·chatgpt·langchain·prompt·aigc·agi
老王Bingo11 天前
Andrej Karpathy深度解析:我们距离AGI还有十年
agi
产业家15 天前
Sora 后思考:从 AI 工具到 AI 平台,产业 AGI 又近了一步
人工智能·chatgpt·agi
猫头虎20 天前
Paper2Agent:将科研论文转化为可交互的AI智能体工具项目
人工智能·prompt·aigc·交互·pip·agi·ai-native