PostTrainBench：LLM 代理能否自动化 LLM 后培训？

在过去的一年中，AI智能体在软件工程领域的能力已变得出奇地娴熟，这主要归功于其推理能力的提升。这引发了一个更深层次的问题：这些系统能否将其能力扩展到自动化进行人工智能研究本身？在本文中，我们探讨了后训练------这个将基础大语言模型转变为有用助手的关键阶段。

我们引入了PostTrainBench基准测试，用于评估大语言模型智能体在有限计算资源约束下（一块H100 GPU上运行10小时）自主执行后训练的能力。我们要求前沿智能体（例如，搭载Opus 4.6的Claude Code）优化基础大语言模型在特定基准测试上的性能（例如，Qwen3-4B模型在AIME上的表现）。

重要的是，我们不为智能体提供任何预定义的策略，而是赋予它们完全的自主权，以在网络上查找必要信息、运行实验并整理数据。我们发现，前沿智能体取得了实质性进展，但通常落后于领先提供商提供的指令调优模型：最佳智能体的成功率为23.2%，而官方指令调优模型为51.1%。

然而，在特定场景下，智能体可以超越指令调优模型：GPT-5.1 Codex Max在使用Gemma-3-4B模型时，在BFCL基准上达到了89%的成功率，而官方模型为67%。我们还观察到一些值得指出的失败模式。智能体有时会参与奖励黑客行为：在测试集上进行训练、下载现有的指令调优检查点而非自行训练，以及使用它们找到的API密钥未经授权生成合成数据。随着这些系统变得愈发强大，这些行为令人担忧，并凸显了进行严格沙箱隔离的重要性。总体而言，我们希望PostTrainBench能有助于追踪人工智能研发自动化的进展，并研究随之而来的风险。

1 引言

近年来，大语言模型的进步催生了一类新型人工智能系统：能够进行推理、编写代码、操作开发者工具，并在极少人工监督下执行长达数小时工作流程的自主智能体（Lin, 2026）。像Claude Code和Codex CLI这样的系统已开始在软件工程实践中引发大规模变革。随之而来的一个显而易见的问题是，这些智能体能否加速人工智能研究本身------这一长期以来依赖人类直觉和手动试错的领域。这一问题意义深远，因为更广泛地实现研发自动化被广泛视为在科学和技术领域取得突破性进展的关键瓶颈------这一进展可能在数年内而非数十年内实现（Amodei, 2024）。

为何关注后训练？

我们研究现代人工智能研发中一个核心且易于处理的部分：后训练。后训练指的是获取一个预训练的大语言模型，并通过监督微调、基于人类反馈的强化学习以及相关的对齐和能力增强方法，对其进行系统性改进的过程。之所以说这个阶段定义明确，是因为其改进效果可以直接通过标准化的评估（如AIME或HumanEval）来衡量，这些评估为微调后的性能提升提供了清晰的信号。其重要性同样不言而喻：后训练的进步是模型在安全性、指令遵循、工具使用和推理能力等方面取得重大提升的关键。尽管如此，目前尚无现成的基准测试来衡量前沿大语言模型智能体执行后训练本身的能力。现有的基准要么聚焦于狭窄的人工智能研发任务，要么只强调某些特定方面，例如复现已有论文（Chan et al., 2025; Wijk et al., 2024; Starace et al., 2025）。因此，我们需要一个端到端的测试平台，专门评估智能体通过后训练直接提升模型性能的能力。

我们的基准测试。

为填补这一空白，我们引入了PostTrainBench。在该基准测试中，每个评估任务都将一个基础大语言模型（Qwen3-1.7B, Qwen3-4B, SmolLM3-3B, 或 Gemma-3-4B）与一个供智能体优化的目标基准（AIME 2025, GSM8K, GPQA, HumanEval, BFCL, ArenaHard, 或 HealthBench）配对。智能体被赋予广泛的自主权：它们可以编写和执行代码、搜索和整理训练数据，并选择任何后训练策略。我们仅施加了为维护评估完整性所必需的最低限度约束。智能体不得在基准测试数据上进行训练，不得修改评估框架，并且只能对提供的特定基础模型进行微调。每次运行结束后，智能体提交训练好的检查点，该检查点将在基准测试的保留测试集上接受评估。我们在有限的计算资源约束下（在一块H100 GPU上运行10小时），评估了通过标准开发者工具运行且无需人工交互的前沿命令行智能体（例如Codex CLI、Claude Code和Gemini CLI）。

我们的发现。

我们发现，前沿智能体能够显著提升基础模型，但总体上仍落后于官方提供的指令调优后的大语言模型：最佳智能体的平均基准性能达到23.2%，而指令调优的基线模型为51.1%。然而，这种差距并非一成不变：在具有清晰评估信号的狭窄任务上，智能体可以超越人类工程师的表现。例如，GPT-5.1 Codex Max对Gemma-3-4B模型进行后训练后，在函数调用任务（BFCL）上达到了89%的成功率，超越了官方的指令调优模型（67%）。这些结果表明，当前的智能体能够成功执行聚焦型的后训练任务，但尚无法匹敌由专家科学家和工程师团队实现的广泛、通用的后训练效果。