论文解读:GAIA给通用AI助手泼冷水,人类92分GPT-4插件版只到30分

ChatGPT 之后,大模型评测开始变得越来越奇怪。

模型在律师考试里刷分,在医学题库里刷分,在数学竞赛题里刷分。榜单看起来越来越漂亮,分数越来越接近"专家水平"。但你把它从考场里拎出来,丢进真实世界,让它查一个网页、读一个表格、确认一个日期、再给出一个不能含糊的答案,它反而开始露怯。

这件事很反直觉。

我们习惯把"更难"理解成更专业、更抽象、更接近博士资格考试。但对一个真正的 AI 助手来说,难题未必是解一道奥数题,而是完成一串普通人每天都在做的小动作------找资料、核来源、算结果、看文件、别瞎编。

于是 GAIA 出现了。

它不是给模型再出一套更变态的考试题,而是把问题拉回一个朴素标准:一个通用 AI 助手,能不能像普通人一样,稳稳地完成真实世界里的简单任务?

答案有点冷。

1. AI刷爆考试题之后,评测反而失灵了

先看大背景。

今天的大模型,已经很会"考试"。MMLU 这类覆盖 STEM、人文、社科的综合题库,曾经被视为大模型能力的硬门槛;但 GPT-4 在 MMLU 上已经做到 86.4%,接近论文引用的人类专家水平 89.8%。非专业人类在这个测试上的准确率只有 34.5%。

换句话说,在很多专业知识题上,模型已经像一个"会背题、会推理、会答卷"的高手。

但这也带来一个尴尬问题:如果榜单不断被刷爆,评测还剩多少信息量?

更麻烦的是,越复杂的开放式任务越难评。你让 AI 写一本书,谁来判断它写得好不好?你让 AI 解一道全球只有少数人能验证的数学题,普通评测员怎么验?如果让另一个更强模型来打分,那评测又变成"模型审模型"------它可能有偏见,也可能根本不够强。

这就像学校发现学生都会做卷子了,于是不断把考试变成更偏、更怪、更专业的竞赛题。

但社会真正需要的,不一定是竞赛冠军。

社会需要的是一个靠谱助理。

GAIA 的切入点就在这里:不要再追逐"对人类也越来越难"的题,而是设计一批对人类概念上很简单、对 AI 却非常难的真实任务。人类看一眼就知道该怎么做,只是过程有点烦;AI 看上去很聪明,却容易在中间某一步断掉。

这不是智商测试。

这是可靠性测试。

要测的不是"模型懂不懂知识",而是"模型能不能把知识、工具和行动串起来"。

这才是通用助手最难的地方。

2. GAIA的题目为什么"人类简单、AI困难"

GAIA 一共构造了 466 个问题。

这些问题看上去并不吓人。它们通常只要求一个短答案:一个数字、一个城市名、几个用逗号隔开的词,或者一个精确到小数点后的结果。没有长篇作文,没有主观评分,也没有"请展开论述"。

但真正的难点藏在过程里。

比如论文给出的 Level 1 样例:去 NIH 网站查一项 2018 年 1 月到 5 月关于 H. pylori 和 acne vulgaris 的临床试验,实际 enrollment count 是多少?

答案只有一个数字:90。

人类怎么做?打开网页,搜关键词,进 clinical trials,确认日期,切到 tabular view,找到 Actual Enrollment。

这不难。

但它需要你连续做对很多小事。

对 AI 来说,这就是麻烦。它不能只靠训练记忆猜答案,也不能看到题目就开始"语言补全"。它必须浏览网页,定位可信来源,理解页面结构,提取正确字段,再按照格式输出一个精确数字。

这就像让一个学生不要写作文,而是去办一件真实世界里的小事:查航班、填表格、核账单、找文件。每一步都简单,但每一步都不能错。

论文用三道样例题直接展示了 GAIA 的核心味道:题面不吓人,答案也很短,但中间必须完成搜索、核验、计算、多模态理解等一串动作。

图1

图1:GAIA 的三档样例问题。它们不是专业知识难题,而是需要模型在真实世界中连续执行多步操作的任务。

GAIA 的问题大多遵循这个逻辑:答案很短,路径很长;概念很简单,执行很脆。

论文把它类比成 Proof of Work------工作量证明。验证答案很容易,但得到答案必须完成一串真实操作。你不能靠蒙,也不能靠背。

这也是 GAIA 和传统 benchmark 最大的区别。

传统考试题经常把难度放在"脑子里":复杂公式、专业概念、隐含知识。GAIA 把难度放在"行动链"里:你要用工具,要查网页,要读文件,要处理图片、音频、表格,要把多个来源拼起来。

一句大白话总结就是------GAIA 不问 AI 会不会"讲道理",它问 AI 会不会"把事情办成"。

这一下就把通用助手的短板照出来了。

3. 四个设计原则:真实、可解释、难作弊、好评测

GAIA 最聪明的地方,不只是题目难,而是题目难得很克制。

它没有把评测做成一个庞大复杂的模拟世界,也没有要求模型在某个封闭环境里调用指定 API。相反,它用四个原则把任务钉住。

第一,问题必须来自真实世界。

题目会涉及网页浏览、多模态理解、代码执行、文件读取,以及日常个人任务、科学信息、通用知识等场景。它不是在一个玩具沙盒里考模型"会不会调用工具",而是让模型面对真实网页、真实文件和真实信息源。

这很关键。

因为很多 Agent 评测其实测的是"会不会适应这个评测环境"。给它一个固定 API、固定工具、固定步骤,它可能学会的是环境套路,而不是通用能力。GAIA 不规定工具路径,只规定最终答案。

第二,问题要能被普通人理解。

这听起来像降低难度,其实是在提高评测质量。因为如果题目本身非常专业,模型错了以后,你很难判断它是不会推理,还是不懂专业知识。GAIA 刻意让非专家也能接近满分,方便人类检查模型的推理轨迹。

第三,问题要难以被记住或污染。

GAIA 要求答案不能直接以明文形式存在于互联网上。多数问题需要组合多个来源,或者对信息做一次转换。比如从网页找到数据,再按某个标准计算;从图片或文件里提取信息,再和另一个来源对照。

这就减少了"模型在预训练里见过答案"的可能性。

第四,评测必须简单。

每道题只有一个简短、明确、事实性的正确答案。评分采用近似 exact match------也就是在必要规范化后,答案对就是对,错就是错。没有长篇主观判断,也不需要评委读半天。

这套设计像一个很窄的针眼。

题目要真实,但不能太开放;要简单,但不能容易蒙;要难倒 AI,但不能难倒人类;要能测复杂行动链,但最终答案又必须一眼可验。

这就是 GAIA 的工程品味。

它不是把评测做大,而是把评测做准。

4. 三档难度:从五步以内到"近乎完美助手"

GAIA 把 466 个问题分成三个等级。

Level 1 通常不需要工具,或者最多一个工具,步骤不超过 5 步左右。它像一个普通网页查询任务:找一个事实,确认一个字段,输出一个短答案。

Level 2 开始变复杂。问题大约需要 5 到 10 步,并且往往要组合不同工具。比如既要浏览网页,又要读文件;既要理解图片,又要做计算。

Level 3 则是给"近乎完美通用助手"准备的。它可能需要很长的行动序列,任意数量的工具,以及对开放世界的持续访问。人类做起来也要花更久,但仍然不是概念上难到无法理解。

这里有个微妙点:GAIA 的难度不是按"题目看起来多吓人"划分,而是按行动链划分。

也就是说,它关心的不是大模型能不能解出一个漂亮公式,而是它能不能稳定完成一条越来越长的操作路径。

这很像真实工作。

一个助理最常见的失败,不是完全不知道要做什么,而是在第七步看错了来源,在第九步算错了单位,在第十二步忘了用户要求不要带百分号。

你可以把 GAIA 看成一套"长链路防抖测试"。链路越长,错误越容易积累;工具越多,接口越容易错配;来源越杂,幻觉越容易钻出来。

论文还统计了所需能力覆盖:web browsing 是最大头,有 355 个问题涉及;coding 有 154 个;multi-modality 有 138 个;diverse filetype reading 有 129 个。文件类型也很杂,包括 xlsx、png、pdf、txt、mp3、jpg、csv、docx、pptx、zip、xml、py、json、m4a 等。

如果只看文字定义,三档难度还像是人为划线。图3 更直观地把 GAIA 的"难"拆成了两件事:需要哪些能力,以及要走多少步、用多少工具。

图2

图2:GAIA 问题的能力覆盖和难度分布。Web browsing 是最大头,同时大量问题需要代码、多模态和多文件类型读取。

这不是"问答题库"。

这是一个迷你真实世界。

而通用 AI 助手真正要过的,恰恰就是这种世界。

5. 数据怎么造:每道题背后都是人工打磨

GAIA 不是从现成数据集里拼出来的。

论文团队让人类设计问题,并要求每道题基于 source of truth------也就是可信事实来源。这个来源可以是 Wikipedia、arXiv、GitHub、NIH 之类相对稳定的网站,也可以是题目附带的文件,甚至可以是一个自包含的小谜题。

但只靠一个人写题还不够。

真正费工夫的是消歧。

GAIA 要求每道题只有一个正确答案。听起来简单,做起来很难。网页可能更新,版本可能不同,题目措辞可能让两个认真做题的人走向不同答案。于是团队让两个新的标注员独立回答每道题,用来验证问题是否无歧义。

如果原始出题者和两个新标注员都得到同一个答案,题目才算稳。如果出现分歧,能修就修,修不了就删。

这一步很硬。

论文报告的验证统计很说明问题:在 623 个新构造问题、1246 次验证标注里,只有 68% 的问题最终有效。Level 1 有效率是 75%,Level 2 是 68%,Level 3 只有 47%。

这组数据很适合单独看一眼。它说明 GAIA 最重的成本,不是想出问题,而是把问题打磨到"两个独立人类也能得到同一个答案"。

表1

表1:GAIA 问题验证阶段统计。越高难度的问题越难保持无歧义,Level 3 的有效率只有 47%。

越真实,越难无歧义。

这就是评测构造最容易被低估的成本。你不能随便抓几个网页问题就叫 benchmark。一个好问题要有稳定来源,要能防止答案直接泄露,要能让人类独立得到同一个结果,还要能让机器用短答案自动评分。

论文估计,创建一道题,包括两名额外标注员验证和必要修复,大约需要 2 小时标注时间。

这也是为什么 GAIA 只有 466 题,而不是 15000 题。

它走的是高密度路线。

这套数据构造方式其实传递了一个判断:未来真正有价值的 AI 评测,可能不再是海量选择题,而是一批小而硬、难污染、能复用、能解释的真实任务。

这比堆题更难。

6. 实验结果:人类92分,模型集体翻车

最刺眼的部分来了。

GAIA 上,人类标注员整体成功率约 92%。按难度拆开,Level 1 是 93.9%,Level 2 是 91.8%,Level 3 也有 87.3%。

这说明题目对人类确实不离谱。

但模型表现完全不是一个量级。

GPT-4 在 Level 1 只有 9.1%,Level 2 只有 2.6%,Level 3 是 0。GPT-4 Turbo 稍好一些,Level 1 到 13.0%,Level 2 到 5.5%,Level 3 还是 0。

AutoGPT 用 GPT-4 做后端,理论上更像一个自动工具使用 Agent,但结果也并不漂亮:Level 1 是 14.4%,Level 2 只有 0.4%,Level 3 仍然是 0。

最强的是 GPT-4 + plugins,但这里要特别小心:论文明确说,这个结果更像一个"oracle estimate",因为插件是人类根据任务手动挑的,而且当时 ChatGPT 插件生态变化很快,不容易复现。

即便如此,GPT-4 + plugins 也只做到 Level 1 的 30.3%、Level 2 的 9.7%、Level 3 的 0。按整体看,它大约只有 15%。

人类 92%,GPT-4 插件版 15%。

这不是小差距。

把这些数字画出来,差距会更刺眼:GAIA 不是让模型"略低于人类",而是把人类和当前 AI 助手拉成了两个层级。

图3

图3:不同方法在 GAIA 三档任务上的得分和答题时间。人类在各级别都保持高分,而当前 LLM 助手在 Level 3 全部为 0。

如果图3给的是直觉冲击,表4则把差距压成了更硬的数字。尤其是 GPT-4 + plugins:即便有人类手动挑插件,Level 2 也只有 9.7%,Level 3 仍然归零。

表2

表2:GAIA 各基线详细得分与平均答题时间。GPT-4 + plugins 的结果不能视为完全可复现结果,因为插件由人类按题目手动选择。

更尴尬的是,搜索引擎基线在 Level 1 有 7.4%,Level 2 和 Level 3 都是 0。这说明 GAIA 的答案并不是简单搜一下第一页就能捡到。模型如果只是把搜索当"外接记忆",仍然不够。

它必须会计划。

它必须会纠错。

它必须会在信息不完整时换查询词,在文件格式变化时换工具,在中间结果可疑时回头检查。

论文还观察到,GPT-4 + plugins 确实出现了一些更像助手的行为:比如搜索结果不满意时回溯、改写 query、继续执行更长计划。这说明工具增强方向有潜力。

但潜力不是能力。

一个能在 30% 情况下完成简单任务的助手,还不能放心托付真实工作。

这就是 GAIA 的冷水。

7. GAIA真正测的是"全自动"这件事

把 GAIA 放到更大的技术版图里,它最重要的不是"又出了一个榜单"。

它真正指出的是 partial automation 和 full automation 的鸿沟。

部分自动化很常见。AI 帮你查资料、写草稿、生成代码、整理表格,你在旁边盯着,错了就改。这已经很有用。但全自动化要求完全不同:你把任务交出去,它自己完成,中间不用你扶,最后答案必须对。

这两个世界可能只差几个百分点错误率,却代表完全不同的生产关系。

自动驾驶就是最典型的例子。一个系统 99% 情况下能开,不等于它能在真实道路上无人驾驶。因为那 1% 不是数学上的小尾巴,而是现实里的事故。

通用 AI 助手也是一样。

GAIA 的短答案机制,把这个问题压得很硬:最终答案没有"差不多"。数字错一位,城市名错一个,格式不符合要求,任务就是失败。

这对今天的大模型很不友好。

但对真实世界很诚实。

现实工作不是聊天竞技场。用户要的是发票金额、论文出处、文件里的结论、网页上的最新字段、Excel 里的总和。你不能靠一段听起来很合理的话糊过去。

也正因为如此,GAIA 不只是在测模型。

它也在测整个 Agent 架构:规划、工具选择、网页浏览、文件读取、多模态理解、代码执行、答案格式控制、错误恢复。任何一个环节脆,最后都会体现为一个错答案。

这比单点能力评测残酷得多。

因为系统能力不是各模块分数相加,而是最弱环节决定下限。

8. 局限也明显:GAIA不是通用助手的终局评测

GAIA 很漂亮,但它不是终点。

第一个局限是,它只评最终答案,不评过程轨迹。不同系统可能用不同路径得到正确答案,GAIA 暂时没有简单办法给计划质量、工具调用质量、来源可信度打分。答案对了,不代表过程可审计;答案错了,也不一定知道具体是哪一步坏掉。

第二个局限是,真实网页会变。

GAIA 尽量选择稳定来源,也会指定版本或日期,但只要评测依赖开放世界,就一定面对信息消失、页面更新、robots.txt 限制和数据污染。这也是静态 benchmark 的宿命------它们从发布那天起,就开始慢慢腐烂。

第三个局限是语言和文化覆盖不足。

GAIA 的问题都是标准英语,很多来源也主要来自英语网页。论文自己也承认,这无法验证 AI 助手对非英语用户、非英语互联网和方言变体的有用性。对全球大多数用户来说,这只是第一步。

但这些局限没有削弱它的价值。

恰恰相反,它们提醒我们:真正的通用助手评测,可能必须是动态的、开放的、持续维护的。不是发一个数据集就完事,而是像维护基础设施一样维护评测生态。

GAIA 更像一张路线图。

它告诉我们,未来的评测要从"模型能不能答题"转向"系统能不能办事";从"知识覆盖率"转向"行动可靠性";从"漂亮生成"转向"可验证完成"。

这一步很关键。

参考资料:https://arxiv.org/pdf/2311.12983

相关推荐
Black蜡笔小新1 小时前
自动化AI算法训练服务器DLTM训推一体工作站赋能多行业智能化升级
人工智能·算法·自动化
KaMeidebaby1 小时前
卡梅德生物技术快报|噬菌体文库构建实验优化及偶联体系实验数据分析
大数据·人工智能·架构·spark·新浪微博
NineData1 小时前
SQL 都在等锁时,ChatDBA 先帮 MySQL 找到谁在挡路
数据库·人工智能·sql·mysql·安全·数据复制·数据迁移工具
意图共鸣1 小时前
意图共鸣科技《AI记忆链商业化白皮书3.0》技术解读:“AI焦虑的解药”——从通用AI到个人记忆链架构
人工智能·科技·架构
小e说说2 小时前
AI 时代,IT 职业教育如何为学习者赋能?——职坐标的 AI+教育实践
人工智能
后端小肥肠2 小时前
不会做视频的我,用 Codex 跑通口播 + 自动剪辑,获客 20+
人工智能·aigc·agent
某林2122 小时前
跨越底层与AI的鸿沟:ROS2+多模态大模型(Qwen-VL)机器人全链路排障实录
人工智能·stm32·机器人·人机交互·ros2·技术复盘
没事别瞎琢磨2 小时前
二、类型系统——给所有概念起名字
人工智能·node.js
卡梅德生物科技小能手2 小时前
卡梅德生物科普:MAPT(微管相关蛋白Tau)
人工智能·经验分享·机器学习