LLM高难度测评体系-Humanity’s Last Exam（HLE）及与其它测评对比

Humanity's Last Exam（HLE）

1. 概述

Humanity's Last Exam（HLE） 是一个面向专家级闭卷学术能力 的高难度评测基准，目标是在传统 benchmark 逐渐饱和后，继续衡量前沿模型在高阶知识、深度推理和多学科综合能力上的真实差距。HLE 正式公开集包含 2,500 道题，覆盖 100+ 学科 ，由近 1,000 名专家贡献，贡献者来自 500+ 机构、50 个国家 ；题型包括 exact-match 短答案 与多选题 ，并包含一定比例的多模态题。( $Nature$ $1$ )

从定位上看，HLE 并不是训练方法论文，而是一个高难度评测体系 ：它关注的是"如何构造一套足够难、足够广、足够可验证、且不易被简单检索或背诵击穿的专家级考试"。论文同时指出，当前前沿模型在 HLE 上仍表现出低准确率与较差校准性，说明模型距离真正可靠的专家级闭卷能力仍有明显差距。( $Nature$ $1$ )

2. 痛点

2.1 传统 benchmark 快速饱和，难以继续区分前沿模型

HLE 的直接出发点，是传统能力评测逐渐失去"前沿分辨率"。Nature 论文明确提到，当前前沿模型在 MMLU 等流行 benchmark 上已经达到 90% 以上准确率，这些测试不再能有效反映模型与专家能力之间的剩余差距。HLE 因此被设计为更高难度的替代性测量尺。( $Nature$ $1$ )

2.2 许多题目可被检索、记忆或模板化作答，无法真正测出深层能力

HLE 认为，仅靠"会答题"不足以说明模型具备专家级能力，因为很多题可以通过互联网检索、训练数据记忆或模板化模式匹配获得高分。因此，HLE 要求题目必须精确、无歧义、可验证、且不易被简单搜索命中，从源头减少"刷题式"高分。( $Nature$ $1$ )

2.3 现有模型不仅会答错，而且常常"不知道自己错了"

HLE 不只测 accuracy，还专门测 calibration。论文指出，在 HLE 这种高难场景下，模型往往在低准确率下仍给出较高自信，这意味着模型在"知道自己不知道"这件事上仍不可靠。对于科研辅助、专业决策等高风险场景，这是关键问题。( $Nature$ $1$ )

2.4 缺少兼顾"广覆盖""高专业度""自动评分"的统一评测

很多基准要么覆盖广但难度不够，要么难度高但领域过窄，要么开放式太强、难以大规模自动评分。HLE 的目标是把这三点合到一起：既覆盖广泛学科，又保持专家级难度，同时仍然保留闭式答案，便于大规模标准化评测。( $Nature$ $1$ )

3. 创新点

3.1 全球专家众包构题，而不是少量研究者内部命题

HLE 的题目来自近千名学科专家，覆盖上百个学科，贡献者主要为教授、研究人员和研究生学历以上群体。这种构题方式相比小规模内部命题，更容易获得真正"前沿、细分、非模板化"的问题分布。( $Nature$ $1$ )

3.2 在构建阶段就加入"前沿模型难度预筛"

HLE 不是先静态出题、再被动测试，而是在收题阶段就先让多种前沿模型尝试作答。只有在模型无法解决，或多选题表现不高于随机水平时，题目才进入下一轮专家审核。论文记录了 7 万多次模型尝试 ，最终约 1.3 万题进入专家复审。这个设计把"难度控制"前置到了数据构建流程里。( $Nature$ $1$ )

3.3 同时兼顾高难度与可自动评分

HLE 包含两类核心题型：exact-match 与 multiple-choice 。其中约 24% 是多选题，其余为短答案；约 14% 的题需要结合图像理解。相比纯开放问答，这种设计既保留了高难度，又能进行较稳定的自动判分。( $Nature$ $1$ )

3.4 公共集 + 私有保留集 + 发布后修订机制

HLE 在公开 2,500 题供社区评测的同时，还保留了 private test set 来监控过拟合与刷榜风险；后续又通过 bug bounty 、可搜索题清洗、以及 HLE-Rolling 动态更新来持续修正题库质量与时效性。这说明 HLE 已从一次性数据集，逐步演化为持续更新的 benchmark 体系。( $Nature$ $1$ )

4. 构建流程

4.1 总体流程

text 复制代码

专家提交题目
   ↓
前沿 LLM 难度预筛
   ↓
专家双轮评审与迭代修改
   ↓
组织者/训练过的审稿人终审
   ↓
形成公开集 + 私有 held-out 集
   ↓
标准化评测（统一 prompt + 自动判分 + 校准评估）
   ↓
发布后 bug bounty / searchable 题清洗 / rolling 更新

上面这条流程并不是训练 pipeline，而是 benchmark construction pipeline。HLE 的方法学重点，正是在于把"出题---预筛---同行评审---终审---私有保留集---发布后修订"做成一整套闭环。( $Nature$ $1$ )

4.2 步骤一：专家出题

每道题提交时都需要包含题面、答案规范（短答或多选）、标准答案、详细解题 rationale、学科标签以及作者身份/机构信息。这样做的目的，是提高题目可追溯性、可复核性与责任约束。( $Nature$ $1$ )

4.3 步骤二：LLM 难度预筛

题目在进入人工评审前，会先经过多种前沿 LLM 测试。若模型仍能稳定解出，该题通常不会进入最终候选池；若模型无法解题，才进入专家复审。这个环节相当于把"HLE 必须难住当前模型"变成了硬筛选条件。( $Nature$ $1$ )

4.4 步骤三：双轮专家评审

HLE 的评审者具有硕士、博士、JD 等研究型学位背景。第一轮评审侧重迭代修改与质量打磨，每道题通常接受 1--3 次审阅；第二轮则从第一轮中挑出质量高、闭式性强、难度合适的问题纳入最终数据集。( $Nature$ $1$ )

4.5 步骤四：终审与公私分集

通过评审的题目会由组织者或经过训练的专家评审进一步人工批准，随后形成公开集 与私有 held-out 集。私有集的作用是防止模型对公共 leaderboard 进行针对性过拟合。( $Nature$ $1$ )

4.6 步骤五：标准化评测与自动判分

评测阶段使用统一 system prompt，让模型输出显式推理和最终答案。由于题目以闭式答案为主，论文使用 judge model 对答案进行等价判定，例如分数/小数或近似值的等价表达。同时，除了 accuracy，也同步评估 calibration error。( $Nature$ $1$ )

4.7 步骤六：发布后清洗与动态维护

论文承认，早期评审并不要求审稿人完整验证每道题的全部解题 rationale，因此数据发布后又引入了 bug bounty 来排查标签错误、题干错误，以及"可被搜索直接命中"的问题；官方站点也显示，2025 年 4 月已根据反馈移除并替换部分问题，2025 年 10 月又推出了 HLE-Rolling。( $Nature$ $1$ )

5. 优缺点

5.1 优点

（1）难度高，仍能区分前沿模型

与已趋近饱和的传统 benchmark 相比，HLE 在设计目标上就是为了保留"前沿区分度"。它不是依赖题量堆叠，而是通过专家命题、模型预筛和多轮审稿来控制难度。( $Nature$ $1$ )

（2）覆盖面广，不是单一学科测试

HLE 同时覆盖数学、人文、自然科学、工程、计算机等多个高层类别，并横跨 100+ 学科，因此更适合评估"大而全"的专家级学术能力，而不是某一窄领域能力。( $Nature$ $1$ )

（3）兼顾多模态与可自动评分

它既包含图文联合理解题，也保留了闭式答案和结构化题型，因此相比纯开放问答 benchmark，更适合做大规模稳定评测。( $Nature$ $1$ )

（4）能额外测出模型"是否知道自己不会"

HLE 将 calibration 纳入正式评估，这一点很重要。很多 benchmark 只看答对率，但 HLE 同时关心模型是否会高置信度胡说，这更接近真实应用中的风险关注点。( $Nature$ $1$ )

5.2 缺点

（1）本质上仍是"闭卷学术题"评测，不等于 AGI

HLE 测的是专家级闭式学术问答能力，而不是自主科研、长期规划、交互试错、真实环境操作或开放式创造。官方站点与论文都没有把"高分 HLE"直接等同于 AGI。这个边界需要明确。( $Nature$ $1$ )

（2）高难命题容易走向"反检索、反模型"的刁钻化风险

从设计逻辑上推断，凡是以"必须难住当前模型"为前置条件的 benchmark，都可能出现题目越来越偏向冷门事实、研究者经验知识或特殊表达的倾向。HLE 通过评审机制尽量控制这一问题，但这一风险很难被彻底消除。这个判断属于基于其构建规则的合理推断。( $Nature$ $1$ )

（3）数据质量控制成本极高

论文明确承认，初期评审并不总是完整核查所有解题 rationale，因此后续不得不引入 bug bounty 和 searchable 审计来修补题库。这说明：越是高难、跨学科、专家众包的 benchmark，越需要长期维护。( $Nature$ $1$ )

（4）公开题库仍然会面临污染与刷榜问题

正因如此，HLE 采用了 private held-out set，并进一步推出 HLE-Rolling。换句话说，HLE 的贡献不只是"做了一套题"，还包括意识到静态 benchmark 在前沿模型时代会迅速失效。( $Nature$ $1$ )

6. 与 MMLU、GPQA、ARC-AGI 的对比

6.1 与 MMLU 的对比

MMLU 是一个覆盖 57 个任务的多任务语言理解测试，目标是衡量模型在广泛学术与职业知识上的理解能力。它的优势是覆盖广、标准化强、历史影响力大；但 HLE 论文明确指出，MMLU 这类 benchmark 已被前沿模型大幅逼近甚至超过 90% 准确率，因此区分前沿模型的能力开始下降。( $arXiv$ $2$ )

从评测哲学看，MMLU 更像"广谱知识考试" ，而 HLE 更像"专家级高难闭卷考试"。两者都强调多学科覆盖，但 HLE 在出题来源、难度预筛、闭式短答、多模态与发布后维护上更进一步。HLE 可以看作是在保持 MMLU"广覆盖"优点基础上的一次"高难升级版"。这个结论与 HLE 论文中"preserving the broad subject-matter coverage of MMLU"的表述一致。( $Nature$ $1$ )

一句话区别：

MMLU 主要回答"模型学得广不广"；HLE 更强调"模型在专家级闭式问题上到底能不能过关"。( $arXiv$ $2$ )

6.2 与 GPQA 的对比

GPQA 是一个由领域专家撰写的高难度 graduate-level Google-proof 问答基准，包含 448 道多选题 ，主要聚焦 生物、物理、化学 三个学科。它的核心价值在于：题目即使给高水平非专家充分联网搜索时间，也依然很难答对，因此特别适合评估"高难科学知识问答"与"可扩展监督"问题。( $arXiv$ $3$ )

与之相比，HLE 的跨度更大、覆盖更广、题型更多样 。GPQA 强在"窄领域、高可信度、强 Google-proof"，更像一个科研型理科 hard benchmark；HLE 则试图把这种高难度机制扩展到上百学科，并加入短答案、多模态和公私分集。( $arXiv$ $3$ )

一句话区别：

GPQA 更像"高难科学问答特化 benchmark"；HLE 更像"把高难专家题推广到全学科的总考试"。( $arXiv$ $3$ )

6.3 与 ARC-AGI 的对比

ARC-AGI 的出发点与 HLE 明显不同。根据 François Chollet 的定义与 ARC Prize 官方说明，ARC-AGI 试图测量的是fluid intelligence / skill-acquisition efficiency，强调在极少先验和少量示例下，对新任务进行抽象、泛化与规则发现的能力。它刻意避免依赖语言文化知识或专业学科知识，而是使用基于网格变换的抽象推理任务。( $arXiv$ $4$ )

因此，ARC-AGI 与 HLE 在"评什么"上几乎不在同一轴上 。HLE 测的是专家级结晶知识 + 高阶学术推理 ；ARC-AGI 测的是少样本抽象泛化与新任务适应。前者更接近"顶级学科考试"，后者更接近"人类直觉式新任务归纳测试"。从评测哲学上看，HLE 更适合衡量"模型像不像一个知识型专家"，而 ARC-AGI 更适合衡量"模型像不像一个能快速学会新规则的通用智能体"。这属于基于两者官方设计目标的直接比较。( $Nature$ $1$ )

一句话区别：

HLE 偏"专家知识与学术推理的上限测量"；ARC-AGI 偏"通用抽象与少样本泛化的本质测量"。( $Nature$ $1$ )

7. 总结

MMLU：广覆盖、多学科基础到专业知识测试，但前沿模型已明显逼近饱和。( $arXiv$ $2$ )
GPQA：高难度、窄领域、专家科学问答，强调 Google-proof 与监督难题。( $arXiv$ $3$ )
ARC-AGI：不测学科知识，重点测新任务抽象、泛化与学习效率。( $ARC Prize$ $5$ )
HLE：试图把"广覆盖"与"专家级高难度"结合起来，构造成一个面向前沿模型的闭式学术总考试。( $Nature$ $1$ )

参考链接：

$1$ : https://www.nature.com/articles/s41586-025-09962-4 "A benchmark of expert-level academic questions to assess AI capabilities | Nature"

$2$ : https://arxiv.org/abs/2009.03300 " $2009.03300$ Measuring Massive Multitask Language Understanding"

$3$ : https://arxiv.org/abs/2311.12022 " $2311.12022$ GPQA: A Graduate-Level Google-Proof Q&A Benchmark"

$4$ : https://arxiv.org/abs/1911.01547?utm_source=chatgpt.com "On the Measure of Intelligence"

$5$ : https://arcprize.org/arc-agi "ARC Prize - What is ARC-AGI?"