Humanity's Last Exam(HLE)
1. 概述
Humanity's Last Exam(HLE) 是一个面向专家级闭卷学术能力 的高难度评测基准,目标是在传统 benchmark 逐渐饱和后,继续衡量前沿模型在高阶知识、深度推理和多学科综合能力上的真实差距。HLE 正式公开集包含 2,500 道题,覆盖 100+ 学科 ,由近 1,000 名专家贡献,贡献者来自 500+ 机构、50 个国家 ;题型包括 exact-match 短答案 与多选题 ,并包含一定比例的多模态题。([Nature][1])
从定位上看,HLE 并不是训练方法论文,而是一个高难度评测体系 :它关注的是"如何构造一套足够难、足够广、足够可验证、且不易被简单检索或背诵击穿的专家级考试"。论文同时指出,当前前沿模型在 HLE 上仍表现出低准确率与较差校准性,说明模型距离真正可靠的专家级闭卷能力仍有明显差距。([Nature][1])
2. 痛点
2.1 传统 benchmark 快速饱和,难以继续区分前沿模型
HLE 的直接出发点,是传统能力评测逐渐失去"前沿分辨率"。Nature 论文明确提到,当前前沿模型在 MMLU 等流行 benchmark 上已经达到 90% 以上准确率,这些测试不再能有效反映模型与专家能力之间的剩余差距。HLE 因此被设计为更高难度的替代性测量尺。([Nature][1])
2.2 许多题目可被检索、记忆或模板化作答,无法真正测出深层能力
HLE 认为,仅靠"会答题"不足以说明模型具备专家级能力,因为很多题可以通过互联网检索、训练数据记忆或模板化模式匹配获得高分。因此,HLE 要求题目必须精确、无歧义、可验证、且不易被简单搜索命中,从源头减少"刷题式"高分。([Nature][1])
2.3 现有模型不仅会答错,而且常常"不知道自己错了"
HLE 不只测 accuracy,还专门测 calibration。论文指出,在 HLE 这种高难场景下,模型往往在低准确率下仍给出较高自信,这意味着模型在"知道自己不知道"这件事上仍不可靠。对于科研辅助、专业决策等高风险场景,这是关键问题。([Nature][1])
2.4 缺少兼顾"广覆盖""高专业度""自动评分"的统一评测
很多基准要么覆盖广但难度不够,要么难度高但领域过窄,要么开放式太强、难以大规模自动评分。HLE 的目标是把这三点合到一起:既覆盖广泛学科,又保持专家级难度,同时仍然保留闭式答案,便于大规模标准化评测。([Nature][1])
3. 创新点
3.1 全球专家众包构题,而不是少量研究者内部命题
HLE 的题目来自近千名学科专家,覆盖上百个学科,贡献者主要为教授、研究人员和研究生学历以上群体。这种构题方式相比小规模内部命题,更容易获得真正"前沿、细分、非模板化"的问题分布。([Nature][1])
3.2 在构建阶段就加入"前沿模型难度预筛"
HLE 不是先静态出题、再被动测试,而是在收题阶段就先让多种前沿模型尝试作答。只有在模型无法解决,或多选题表现不高于随机水平时,题目才进入下一轮专家审核。论文记录了 7 万多次模型尝试 ,最终约 1.3 万题进入专家复审。这个设计把"难度控制"前置到了数据构建流程里。([Nature][1])
3.3 同时兼顾高难度与可自动评分
HLE 包含两类核心题型:exact-match 与 multiple-choice 。其中约 24% 是多选题,其余为短答案;约 14% 的题需要结合图像理解。相比纯开放问答,这种设计既保留了高难度,又能进行较稳定的自动判分。([Nature][1])
3.4 公共集 + 私有保留集 + 发布后修订机制
HLE 在公开 2,500 题供社区评测的同时,还保留了 private test set 来监控过拟合与刷榜风险;后续又通过 bug bounty 、可搜索题清洗、以及 HLE-Rolling 动态更新来持续修正题库质量与时效性。这说明 HLE 已从一次性数据集,逐步演化为持续更新的 benchmark 体系。([Nature][1])
4. 构建流程
4.1 总体流程
text
专家提交题目
↓
前沿 LLM 难度预筛
↓
专家双轮评审与迭代修改
↓
组织者/训练过的审稿人终审
↓
形成公开集 + 私有 held-out 集
↓
标准化评测(统一 prompt + 自动判分 + 校准评估)
↓
发布后 bug bounty / searchable 题清洗 / rolling 更新
上面这条流程并不是训练 pipeline,而是 benchmark construction pipeline。HLE 的方法学重点,正是在于把"出题---预筛---同行评审---终审---私有保留集---发布后修订"做成一整套闭环。([Nature][1])
4.2 步骤一:专家出题
每道题提交时都需要包含题面、答案规范(短答或多选)、标准答案、详细解题 rationale、学科标签以及作者身份/机构信息。这样做的目的,是提高题目可追溯性、可复核性与责任约束。([Nature][1])
4.3 步骤二:LLM 难度预筛
题目在进入人工评审前,会先经过多种前沿 LLM 测试。若模型仍能稳定解出,该题通常不会进入最终候选池;若模型无法解题,才进入专家复审。这个环节相当于把"HLE 必须难住当前模型"变成了硬筛选条件。([Nature][1])
4.4 步骤三:双轮专家评审
HLE 的评审者具有硕士、博士、JD 等研究型学位背景。第一轮评审侧重迭代修改与质量打磨,每道题通常接受 1--3 次审阅;第二轮则从第一轮中挑出质量高、闭式性强、难度合适的问题纳入最终数据集。([Nature][1])
4.5 步骤四:终审与公私分集
通过评审的题目会由组织者或经过训练的专家评审进一步人工批准,随后形成公开集 与私有 held-out 集。私有集的作用是防止模型对公共 leaderboard 进行针对性过拟合。([Nature][1])
4.6 步骤五:标准化评测与自动判分
评测阶段使用统一 system prompt,让模型输出显式推理和最终答案。由于题目以闭式答案为主,论文使用 judge model 对答案进行等价判定,例如分数/小数或近似值的等价表达。同时,除了 accuracy,也同步评估 calibration error。([Nature][1])
4.7 步骤六:发布后清洗与动态维护
论文承认,早期评审并不要求审稿人完整验证每道题的全部解题 rationale,因此数据发布后又引入了 bug bounty 来排查标签错误、题干错误,以及"可被搜索直接命中"的问题;官方站点也显示,2025 年 4 月已根据反馈移除并替换部分问题,2025 年 10 月又推出了 HLE-Rolling。([Nature][1])
5. 优缺点
5.1 优点
(1)难度高,仍能区分前沿模型
与已趋近饱和的传统 benchmark 相比,HLE 在设计目标上就是为了保留"前沿区分度"。它不是依赖题量堆叠,而是通过专家命题、模型预筛和多轮审稿来控制难度。([Nature][1])
(2)覆盖面广,不是单一学科测试
HLE 同时覆盖数学、人文、自然科学、工程、计算机等多个高层类别,并横跨 100+ 学科,因此更适合评估"大而全"的专家级学术能力,而不是某一窄领域能力。([Nature][1])
(3)兼顾多模态与可自动评分
它既包含图文联合理解题,也保留了闭式答案和结构化题型,因此相比纯开放问答 benchmark,更适合做大规模稳定评测。([Nature][1])
(4)能额外测出模型"是否知道自己不会"
HLE 将 calibration 纳入正式评估,这一点很重要。很多 benchmark 只看答对率,但 HLE 同时关心模型是否会高置信度胡说,这更接近真实应用中的风险关注点。([Nature][1])
5.2 缺点
(1)本质上仍是"闭卷学术题"评测,不等于 AGI
HLE 测的是专家级闭式学术问答能力,而不是自主科研、长期规划、交互试错、真实环境操作或开放式创造。官方站点与论文都没有把"高分 HLE"直接等同于 AGI。这个边界需要明确。([Nature][1])
(2)高难命题容易走向"反检索、反模型"的刁钻化风险
从设计逻辑上推断,凡是以"必须难住当前模型"为前置条件的 benchmark,都可能出现题目越来越偏向冷门事实、研究者经验知识或特殊表达的倾向。HLE 通过评审机制尽量控制这一问题,但这一风险很难被彻底消除。这个判断属于基于其构建规则的合理推断。([Nature][1])
(3)数据质量控制成本极高
论文明确承认,初期评审并不总是完整核查所有解题 rationale,因此后续不得不引入 bug bounty 和 searchable 审计来修补题库。这说明:越是高难、跨学科、专家众包的 benchmark,越需要长期维护。([Nature][1])
(4)公开题库仍然会面临污染与刷榜问题
正因如此,HLE 采用了 private held-out set,并进一步推出 HLE-Rolling。换句话说,HLE 的贡献不只是"做了一套题",还包括意识到静态 benchmark 在前沿模型时代会迅速失效。([Nature][1])
6. 与 MMLU、GPQA、ARC-AGI 的对比
6.1 与 MMLU 的对比
MMLU 是一个覆盖 57 个任务的多任务语言理解测试,目标是衡量模型在广泛学术与职业知识上的理解能力。它的优势是覆盖广、标准化强、历史影响力大;但 HLE 论文明确指出,MMLU 这类 benchmark 已被前沿模型大幅逼近甚至超过 90% 准确率,因此区分前沿模型的能力开始下降。([arXiv][2])
从评测哲学看,MMLU 更像"广谱知识考试" ,而 HLE 更像"专家级高难闭卷考试"。两者都强调多学科覆盖,但 HLE 在出题来源、难度预筛、闭式短答、多模态与发布后维护上更进一步。HLE 可以看作是在保持 MMLU"广覆盖"优点基础上的一次"高难升级版"。这个结论与 HLE 论文中"preserving the broad subject-matter coverage of MMLU"的表述一致。([Nature][1])
一句话区别:
MMLU 主要回答"模型学得广不广";HLE 更强调"模型在专家级闭式问题上到底能不能过关"。([arXiv][2])
6.2 与 GPQA 的对比
GPQA 是一个由领域专家撰写的高难度 graduate-level Google-proof 问答基准,包含 448 道多选题 ,主要聚焦 生物、物理、化学 三个学科。它的核心价值在于:题目即使给高水平非专家充分联网搜索时间,也依然很难答对,因此特别适合评估"高难科学知识问答"与"可扩展监督"问题。([arXiv][3])
与之相比,HLE 的跨度更大、覆盖更广、题型更多样 。GPQA 强在"窄领域、高可信度、强 Google-proof",更像一个科研型理科 hard benchmark;HLE 则试图把这种高难度机制扩展到上百学科,并加入短答案、多模态和公私分集。([arXiv][3])
一句话区别:
GPQA 更像"高难科学问答特化 benchmark";HLE 更像"把高难专家题推广到全学科的总考试"。([arXiv][3])
6.3 与 ARC-AGI 的对比
ARC-AGI 的出发点与 HLE 明显不同。根据 François Chollet 的定义与 ARC Prize 官方说明,ARC-AGI 试图测量的是fluid intelligence / skill-acquisition efficiency,强调在极少先验和少量示例下,对新任务进行抽象、泛化与规则发现的能力。它刻意避免依赖语言文化知识或专业学科知识,而是使用基于网格变换的抽象推理任务。([arXiv][4])
因此,ARC-AGI 与 HLE 在"评什么"上几乎不在同一轴上 。HLE 测的是专家级结晶知识 + 高阶学术推理 ;ARC-AGI 测的是少样本抽象泛化与新任务适应。前者更接近"顶级学科考试",后者更接近"人类直觉式新任务归纳测试"。从评测哲学上看,HLE 更适合衡量"模型像不像一个知识型专家",而 ARC-AGI 更适合衡量"模型像不像一个能快速学会新规则的通用智能体"。这属于基于两者官方设计目标的直接比较。([Nature][1])
一句话区别:
HLE 偏"专家知识与学术推理的上限测量";ARC-AGI 偏"通用抽象与少样本泛化的本质测量"。([Nature][1])
7. 总结
- MMLU:广覆盖、多学科基础到专业知识测试,但前沿模型已明显逼近饱和。([arXiv][2])
- GPQA:高难度、窄领域、专家科学问答,强调 Google-proof 与监督难题。([arXiv][3])
- ARC-AGI:不测学科知识,重点测新任务抽象、泛化与学习效率。([ARC Prize][5])
- HLE:试图把"广覆盖"与"专家级高难度"结合起来,构造成一个面向前沿模型的闭式学术总考试。([Nature][1])
参考链接:
1\]: https://www.nature.com/articles/s41586-025-09962-4 "A benchmark of expert-level academic questions to assess AI capabilities \| Nature" \[2\]: https://arxiv.org/abs/2009.03300 "\[2009.03300\] Measuring Massive Multitask Language Understanding" \[3\]: https://arxiv.org/abs/2311.12022 "\[2311.12022\] GPQA: A Graduate-Level Google-Proof Q\&A Benchmark" \[4\]: https://arxiv.org/abs/1911.01547?utm_source=chatgpt.com "On the Measure of Intelligence" \[5\]: https://arcprize.org/arc-agi "ARC Prize - What is ARC-AGI?"