LLM | ARC-AGI:有趣的 benchmark

ARC-AGI benchmark 提供了基于视觉网格的谜题,这些谜题是"对于人类简单、对于大模型困难"的问题。ARC-AGI 通过评测大模型解决这类问题的能力,来衡量大模型距通用智能的距离。

每个谜题仅提供少量示例,大模型需要基于这些示例,通过抽象推理,理解谜题的含义。(另一方面,示例较少也意味着训练数据集较少,即,ARC-AGI benchmark 不容易通过专门训练来刷点。)该 benchmark 测试模型识别 pattern 并将其快速应用于新情况的能力。

ARC-AGI 的主要评估指标是 Pass@2,它衡量模型在两次尝试内生成正确输出的能力。

示例:

(ARC-AGI-1)

(ARC-AGI-2)

如何解决 ARC-AGI 问题?ARC-AGI 团队在 Kaggle 上发布了相关竞赛,然而,由于训练数据过少,无法训出一个用于解决 ARC-AGI 问题的模型(这个思想也与考察模型通用推理能力的初衷相悖),因此在 2024 年 GPT 等模型兴起之前,基于深度学习的方法并未取得好的结果。

根据 ARC Prize 2024: Technical Report,在 2024 年度,ARC-AGI 的求解取得突破,主要使用了以下三种方法:

  • 深度学习引导的程序合成:利用深度学习模型,特别是专门的代码 LLMs,来生成解决任务的程序,或对搜索程序的过程进行指导。
  • 直推模型(transductive models)在测试时训练(test-time training,TTT):在给定的 ARC-AGI 任务规范上对 LLM 进行微调,以便将 LLM 的先验知识重新组合成一个新的模型,适应当前的任务。直推模型指的是,接收输入后直接输出结果,而非输出一个程序。
  • 将程序合成与直推模型相结合:将上述两种方法合并为一个超级方法,因为据观察,这两种方法擅长解决不同类型的任务。

ARC-AGI 任务的官网:https://arcprize.org/

ARC-AGI-1/2/3 :

ARC-AGI-1/2 的榜单:https://arcprize.org/leaderboard

ARC Prize 2024: Technical Report:https://arxiv.org/html/2412.04604v1

相关博客:

相关推荐
农场主John15 小时前
Accelerate_deepspeed使用
pytorch·llm·deepspeed
组合缺一16 小时前
论 AI Skills 分布式发展的必然性:从单体智能到“云端大脑”的跃迁
java·人工智能·分布式·llm·mcp·skills
小哈里17 小时前
【计算】Ray框架介绍,AI基础设施之“通用”分布式计算(跨场景,门槛低,大规模生产,单机->集群->推理一站式)
人工智能·大模型·llm·分布式计算·ray
山顶夕景1 天前
【VLM】Visual Merit or Linguistic Crutch? 看DeepSeek-OCR
大模型·llm·ocr·多模态
玄同7651 天前
LangChain 核心组件全解析:构建大模型应用的 “乐高积木”
人工智能·python·语言模型·langchain·llm·nlp·知识图谱
亚里随笔1 天前
相对优势估计存在偏差——揭示群体相对强化学习中的系统性偏差问题
人工智能·深度学习·机器学习·llm·agentic·rlvr
带刺的坐椅1 天前
论 AI Skills 分布式发展的必然性:从单体智能到“云端大脑”的跃迁
java·ai·llm·mcp·tool-call·skills
中杯可乐多加冰2 天前
RAG 深度实践系列(三):RAG 技术演变与核心架构的深度剖析
人工智能·深度学习·大模型·llm·知识库·rag·graphrag
Wilber的技术分享2 天前
【Transformer原理详解2】Decoder结构解析、Decoder-Only结构中的Decoder
人工智能·笔记·深度学习·llm·transformer
猿小羽2 天前
AI 2.0 时代全栈开发实战:从 Spring AI 到 MLOps 的进阶指南
ai·llm·mlops·rag·vector database·spring ai·prompt engineering