上海人工智能实验室：35B 模型追平 GPT、kimi 等万亿参数模型

一句话总结

把训练数据做细，构造大规模、高质量、跨领域的长程轨迹样本数据，Agents-A1 利用多领域 OPD 让 35B MoE 模型达到与顶级万亿参数模型相当的水平

论文标题：Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter Performance with a 35B Agent
论文地址 ：https://arxiv.org/abs/2606.30616
作者背景：上海人工智能实验室（Shanghai Artificial Intelligence Laboratory）
代码地址 ：https://github.com/InternScience/Agents-A1
模型地址 ：https://huggingface.co/InternScience/Agents-A1

一、动机

构建能自主规划、调用工具、长时间连续工作的智能体，是当前大模型落地的核心方向。这类长程任务（long-horizon task）的难点在于：任务跨度越长，早期错误越容易逐步积累，模型需要根据新信息做持续修正

现有的做法大致分两条路线：

堆参数：用万亿级参数将各种推理模式、工具使用行为和领域知识内化到模型中。这条路有效，但复现门槛极高------你必须有对等的模型规模、数据和算力，小团队几乎无法复刻。
扩视野（horizon）：不放大模型本身，而是收集更详细的中间信息，例如把 agent 的知识获取、动作执行、观察解读、验证判断都转化为训练信号

Agents-A1 走的是第二条路。它的核心主张是：想让 agent 在长程任务上变强，与其拼参数规模，不如把过程训练做厚做扎实

"从过程中学" 本身并不新鲜，多数 agent 模型都会收集推理步骤和工具调用轨迹来做训练，但常规过程数据要么太短、要么缺乏逐步验证、要么只能靠人工标注无法规模化

Agents-A1 的核心贡献是，跑通了一套大规模、高质量（平均数万 token，每步带有真实执行结果和对错验证结果）数据生成与模型训练的流程。这种数据互联网上爬不到，纯靠人标也负担不起

二、实现方案

2.1 知识-动作图谱

为了自动、大规模生产 "超长 + 步骤可验证" 的轨迹，Agents-A1 构建了一套知识-动作图谱（Knowledge-Action Graph, KAG）。与普通知识图谱存储实体与关系不同，KAG 记录的是 "一道题是怎么一步步做出来、每步又怎么验对的"

形式上，KAG 是一个四元组 G=(C, A, O, V)

元素	含义	举例
C（语料）	领域知识、证据、约束	wiki 页面、竞赛说明书、科学问题
A（动作空间）	可执行的操作	搜索查询、代码编辑、工具调用
O（观察空间）	动作的返回	检索结果、执行日志、提交分数
V（验证集）	正确性检查	答案匹配、证据链核验、格式校验

一个动作可被记为 (s_t, a_t, o_t, v_t) ，其中 s_t 表示当前状态（已掌握的证据加上前几步的观察）。成功和失败的轨迹都被保留到图谱 ------ 失败轨迹尤其有价值，能从中学到教训，实现逐步的功劳归因

初始图谱不可能覆盖所有场景，Agents-A1 用一个三方博弈游戏来自动扩展：出题者（proposer）从图中采样出约束任务；解题者（solver）用搜索和工具去解；裁判（verifier）验答案、验证据链、检查有无走捷径。通过校验的轨迹写回图中，不通过的被打回重练。图谱就这样越滚越大、越滚越难

最终产出覆盖六大领域（长程搜索、MLE 工程、科学推理、指令遵循、工具调用、通用智能体）的训练轨迹约 10 万条，平均长度 45K token

2.2 三阶段训练

全域监督微调

基座模型选用 Qwen3.5-35B-A3B，用上述 10 万条跨领域轨迹做标准 SFT。训练后的模型在搜索、科研等任务上提升显著，但指令遵循和通用智能体任务却变差了。原因是不同领域存在推理模式冲突：长程搜索是 "多轮 × 短思考 × 频繁调用工具" 的快节奏，长指令遵循是 "单轮 × 长思考 × 一次输出" 的慢节奏，全域 SFT 无法平衡两种截然不同的节奏模式

领域教师训练

为解决上述冲突，Agents-A1 为每个领域单独训练一个专科教师模型：

教师	训练方式	提升效果
搜索教师	SFT + GRPO RL	GAIA 59.8 → 95.1
科学教师	两阶段 SFT（推理 → 工具增强）	FS-R 2.5 → 54.3
指令教师	两阶段 GRPO RL（约束 → 长上下文）	IFBench 70.2 → 82.0
工具教师	SFT + RL（64 样本硬集 + 数据复用）	τ²-Bench 32.5 → 82.5

每位教师只需在自己的领域做到极致，不用关心跨域兼容问题

多教师 OPD 与显著词表对齐

最后一步是把所有教师的能力统一蒸馏进一个学生模型

与传统蒸馏（老师给标准答案，学生模仿）不同，在线策略蒸馏（On-Policy Distillation）让学生自己生成回答，然后由对应领域的教师针对学生写的内容逐 token 打分纠正

为避免全词表比对的高成本，论文提出了显著词表对齐（Salient Vocabulary Alignment, SVA）。在每个 token 位置，只取教师分布中概率最高的 top-k 个候选词，在这个紧凑子集上做截断反向 KL 散度对齐

为防止跨域信号冲突（如前文提到的推理模式相反），蒸馏时做了两手准备：

硬路由：每道题只由对应领域的教师来教，不混合多位教师的信号
领域归一化聚合：先在每个领域内平均 loss，再跨域平均。这样数据量大的领域不会抢走全部梯度话语权

三、实验结果

3.1 35B vs 万亿参数

在长程搜索、MLE 工程、科学推理、指令遵循、工具调用、通用智能体 6 个领域的 16 个基准上测试，除了对比 Qwen3.6-35B-A3B、NexN2-mini 这些同级别选手以外，还与 Kimi-K2.6、DeepSeek-V4-Pro、GPT 5.5 这些万亿参数规模模型同台竞技

注：HiPhO、FS-O、FS-R 三项基准上对比模型没开工具，而 Agents-A1 是带工具（search / visit / code / scholar）跑的

Agents-A1 在 5 个基准上取得全场最佳，超越所有万亿参数模型，3 个基准上与万亿模型保持竞争力

3.2 长程实战案例

鲸鱼叫声识别：

在 MLE-Bench 的 ICML 2013 Whale Challenge 上，Agents-A1 被给定数据集后全自动运行 12 小时，0 人工干预。它从 naive CNN 基线开始，自主进行时域分析、音频增强、Mel-spectrogram CNN 集成、大规模增强等一系列改进，最终将验证集 AUC 从 0.58 提升至 0.9935，达到金牌水平

热带气旋分析闭环

给定真实最佳路径数据（IBTrACS），Agents-A1 自主完成数据获取 → 清洗 → 指标计算 → 可视化 → 报告撰写的完整研究闭环，输出包括路径图、风速演变、移速和航向变化等诊断图