我们需要 AI 成为"上下文学习"(Context learners)
过去几年,大语言模型的进化速度快得令人惊叹。如今的前沿模型,已经是顶级的"做题家":它们能解开奥数级别的难题,能推演复杂的编程逻辑,甚至能通过那些人类需要苦读数年才能拿下的专业资格考试。
然而,这些耀眼的成绩单可能掩盖了一个真相:能在考场拿满分的学生,未必能胜任真实世界的工作。
回看我们人类的日常工作:开发者扫过从未见过的工具文档,就能立刻开始调试代码;玩家拿起新游戏的规则书,在实战中边玩边学;科学家从复杂的实验日志中筛选数据,推导出新的结论和定律。我们发现在这些场景中,人类并不只依赖多年前学到的"死知识",而是在实时地从眼前的 context 中学习。
三个人类日常生活和工作场景的例子。这三个例子分别为:(1)面对 SkyNet 无人机 SDK 文档 (~70K 字),将自然语言所表达的飞行请求转成安全、合规的 SDK 伪代码;(2)直接上手玩一款游戏:给定一款新游戏的完整规则 (~15K 字),分析隐藏房间场景并给出可能结果;(3)分析300 份原始实验日志,验证数据、推导关系式并估计共振常数。
然而,今天的语言模型并非如此。它们主要依赖"参数化知识",即在预训练阶段被压缩进模型权重里的静态记忆。在推理时,模型更多是在调用这些封存的内部知识,而不是主动从当前输入的新信息中汲取营养。
这揭示了当前模型的训练范式和在真实场景中应用之间是不匹配的:我们优化出的模型擅长对自己"已知"的事物进行推理,但用户需要的,却是让模型解决那些依赖于杂乱、动态变化的 context 的任务。
简而言之:我们造出了依赖"过去"的参数推理者,但世界需要的是能吸收"当下"环境的 context 学习者。
要弥合这一差距,我们必须从根本上改变模型的优化方向。

语言模型的范式转变。
CL-bench: 衡量模型的 context 学习能力
为了衡量现有模型距离真正的" context 学习者"还有多远,我们构建了。这是一个专门评测语言模型能否从 context 中学习新知识并正确应用的基准。
CL-bench 包含由资深领域专家精心制作的 500 个复杂 context 、1,899 个任务和 31,607 个验证标准。CL-bench只包含一个简单但苛刻的要求:解决每个任务要求模型必须从 context 中学习到模型预训练中不存在的新知识,并正确应用。
模型需要学习的知识非常广泛。它包括新的领域知识、不熟悉的规则系统、复杂的产品工作流,甚至是必须从实验数据中推导归纳出的定律或结论。
所有这些知识要么是由领域专家完全新构建的,要么是取自那些不太可能出现在当前前沿模型训练数据中的小众、长尾来源。因此,模型无法通过回忆静态的参数化知识来解决任务,都要求模型从提供的 context 进行学习并应用。
具体来说,CL-bench 涵盖了四种广泛的现实世界 context 学习场景:
CL-bench 的 context 分类体系。
领域知识推理:context 中提供特定的领域知识(例如虚构的法律体系、创新的金融工具或小众专业知识)。模型需要利用这些知识来推理并解决具体问题。
规则系统应用:context 中提供新定义的正式系统(例如新的游戏机制、数学形式体系、编程语法或技术标准)。模型必须理解并应用这些规则来执行任务。
程序性任务执行:context 中提供复杂的过程系统(例如工作流、产品手册和操作指南)。模型必须理解并应用这些程序性信息来完成任务。
经验发现与模拟:context 中提供复杂系统内的实验数据、观测记录或模拟环境。与前几类涉及演绎推理不同,这一类专注于归纳推理,也是最具挑战性的。模型必须从数据中发现潜在的定律或结论,并应用它们来解决任务。
CL-bench 示例。解决这些任务要求语言模型从提供的 context 中学习。图中这四个案例分别是:(1)在一部长达 2.3 万字、刚刚生效的新法律下判一起真实纠纷;(2)基于一门新设计的教育编程语言规范,实现一个带有时间条件终止的周期性程序;(3)在一套从未见过的编程框架中执行代码;(4)在给定技术规格和长期环境政策情景的条件下,模拟关键技术金属的可持续全球供应。更多例子详见我们的。
这些类别包含了大部分现实世界工作中常见的演绎推理和归纳推理任务,能充分衡量模型的 context 学习能力。
关于 CL-bench 的更多细节,请参阅我们的论文。
CL-bench 的设计原则和特性
CL-bench 围绕一个简单但严格的设计原则构建:每个任务都必须要求从 context 中学习新知识。CL-bench 中的每个 context 都是完全自包含(Self-contained)的。解决任务所需的所有信息都显式地提供在 context 本身之中:不需要外部检索,也不允许隐藏假设。
解决CL-bench 中的任务需要模型从相应的 context 中学习新知识。
为了确保性能真正反映 context 学习,而不是记忆或数据泄露,CL-bench 采用了无污染设计(Contamination-free):
虚构创作:专家创作完全虚构的内容,例如为虚构国家设计一套完整的法律体系(包括新颖的判例和法律原则),或创建具有独特语法和语义的新编程语言。
现有内容的修改:专家修改现实世界的内容以创建变体,例如更改历史事件、改变科学和数学定义,或修改技术文档和标准。
整合小众和新兴内容:专家纳入了在预训练数据集中代表性极低的小众或近期新兴内容,如前沿研究发现、新发布的产品手册或技术文档,以及来自专门领域的特定知识。
在不提供任何 context 的情况下,最先进的模型GPT-5.1 (High)仅能解决不到 1%的任务。这有力地证明了数据是无污染的,模型若不从 context 中学习,几乎完全无法解决这些任务。
此外,CL-bench 的设计具有高复杂性和序列依赖性。51.1% 的任务需要序列依赖,意味着后续任务的解决方案取决于早期交互的结果。这种多轮次设计显著增加了任务难度。平均而言,领域专家花费约20 小时标注每个 context ,以确保任务构建的质量和深度。
CL-bench 中的每个任务都是完全可验证的。平均而言,每个 context 关联63.2个验证标准,每个任务包含 16.6 个评估标准。每个任务的正确性都从多个角度进行评估,确保了评估的全面性。
部分实验发现
我们在 CL-bench 上评估了十个最先进的语言模型。结果揭示了当前模型几乎不能从复杂 context 中学习来解决真实场景的问题。实验也解释了一些更有趣的发现。
十个前沿模型在 CL-bench 上的任务解决率。所有模型均在推理模式下进行评估,结果报告为三次运行的平均值 ± 标准差 (%)。
平均而言,模型仅解决了17.2%的任务。即便是表现最好的模型GPT-5.1 (High),也仅达到了23.7%。换句话说,尽管 context 中拥有解决每个任务所需的全部信息,模型在绝大多数任务上都失败了。这表明当前最前沿的模型几乎不会从 context 中学习。
各模型错误类型的分布(因为一个solutions可能有多种错误原因,所以每行错误率总和大于100%)。
还有几个额外的现象值得注意:
忽略或误用 context 是导致失败的主要原因。许多错误并非源于信息缺失,而是源于模型忽视了 context 中的关键细节,或错误地应用了它们。在许多情况下,模型只会利用预训练学习到的静态知识来解决任务,即使 context 明确定义了新的规则、概念或程序,模型也不会学习和利用。
长 context 推理和指令遵循是必要的,但不是充分条件。案例分析表明,那些难以跨 context 文追踪依赖关系或难以精确遵循约束的模型,往往表现得更差。然而,即使是能够处理长输入并可靠遵循指令的模型,仍然在许多任务上失败。 context 学习需要的能力,远不止长上下文理解和指令遵循能力。
从实验数据和环境模拟中进行归纳推理比演绎应用更困难。演绎任务让模型根据 context 中明确给出的规则和流程进行应用,而经验发现和环境模拟类任务则要求归纳推理------从数据中总结规律或在虚拟环境中探索。模型在这类任务上的表现明显较差,任务解决率通常低于 10%,且结果波动大。这表明发现规律远比应用规则更具挑战性。
GPT-5.1 在高/低推理强度设置下,各子类别表现对比。
更高的推理强度通常能提升 context 学习效果。对部分模型来说,增加推理强度可以改善表现,使模型更深入地理解复杂 context 。例如,GPT-5.1 在管理类和实验数据类任务上的表现提升约 6%。但其他模型提升有限甚至可能下降,说明单靠更多推理并不足够,模型还必须能够正确吸收和组织 context 信息。
不同输入长度下模型上下文学习表现的变化趋势。(不同 context 下模型的表现变化呈现相似趋势。)
Context 学习的难度与 context 长度相关,但短 context 也可能很复杂。较长的 context 通常让所有模型的任务更难,这验证了长 context 处理仍是关键瓶颈。然而,即使是短 context ,如果包含信息密集、规则隐含、依赖复杂或约束严格的内容,也依然很具挑战性,说明 context 学习的难度不仅仅来源于长度,也来自于其复杂度。
更多发现请参见我们的论文。综上所述,CL-bench 揭示了一个不能被忽视的现象:当今的前沿语言模型还仍然不会利用 context ,从 context 中学习。
CL-bench充分解释了语言模型在真实场景中为什么经常出错:即使有了 context 工程,给模型准备好了所需的 context ,模型也会失败。如果模型不能真正从中学习,仅仅提供 context 是不够的。 context 学习作为一项模型基础的学习能力,很大程度上被忽视了。
展望未来
如果上下文学习显著提升,人类在 AI 系统中的角色将发生变化:我们不再是主要的数据提供者(training data provider),而变成了 context 提供者(context provider)。竞争的焦点将从"谁能把模型训练得更好",转向"谁能为任务提供最丰富、最相关的 context "。
但其实这里还有一个挑战。即便 context 学习足够强大,它目前依然是会消失的(Ephemeral):模型的 context 窗口一旦清空,学到的知识随之消失。因此,我们还要关注如何让从 context 中习得的知识持久化?这种知识不仅是事实,还包括能帮助模型跨任务迁移的技能、经验和模式等。
记忆巩固是语言模型通过 context 学习经验的关键。
因此,如何记忆很可能成为 2026 年的另一个核心主题。 要充分发挥语言模型的潜力,可能需要新的架构、新的优化方式来决定"该保留什么"。一旦 context 学习与记忆变得可靠,模型或许就能实现自主学习:它们将自主准备 context ,从中学习并自我巩固。
