SkillOpt:把 skill 文档当成模型权重来训练

一句话总结

现有 Agent Skill 要么手写、要么由 LLM 一次性生成或者无约束自修改,SkillOpt 把技能文档视为可训练的外部状态,用有界编辑 + 验证门控 + 拒绝缓冲 + 慢速更新构成完整的文本空间优化器,在 52 个评测格子上达到全部最优



一、动机

前沿语言模型越来越多地被部署为 Agent ------ 不只是回答问题,而是多步执行:调用工具、读写文件、遵循领域规范、格式化输出。在这种场景下,领域适配的核心对象不再是模型权重或 prompt 片段,而是 Agent 执行任务时依赖的程序性知识

Agent Skill 是这种程序性知识的自然载体:一段自然语言文档,打包了工具使用策略、领域启发式规则、输出约束和失败模式处理。模型参数冻结不动,通过外挂不同的 skill 文档来适配不同领域 ------ 类似于神经网络中的适配层

但现有的 skill 获取方式都有硬伤:

  • 手写: 脆弱、覆盖不全、不可泛化
  • LLM 一次性生成: 没有反馈闭环,质量不可控
  • LLM 无约束自修改: 可能擦除有用规则、过拟合局部失败

这三种方式的共同缺陷是:没有一个可控的迭代机制。不像训练神经网络时,有 learning rate 控制每步改多少、有 validation 防止过拟合、有 momentum 保持方向稳定;但在文本空间里,没有人做过类似的事

SkillOpt 的核心观点:既然 skill 是 Agent 的适配层,它就应该被当作可训练对象来优化,而不是一个手工产物


二、核心思路

SkillOpt 刻意模仿深度学习的训练范式,但把操作对象从数值权重替换为自然语言文档。这个类比不是修辞,而是真正的设计蓝图 ------ 每个环节都有明确的文本空间对应物:

深度学习概念 SkillOpt 对应
前向传播 用当前 skill 执行一批任务,收集轨迹和分数
反向传播 Optimizer 模型分析轨迹,生成结构化编辑提案
Learning Rate 编辑预算:每步最多改几条规则
Validation 在 held-out 集上验证,只有严格提升才接受
Momentum 跨 epoch 的 slow update:保留长期稳定的编辑方向
负反馈 Rejected-edit buffer:失败编辑供后续参考

整个循环:target model 执行 → optimizer model 反思 → 提出编辑 → 裁剪到预算 → 验证门控 → 接受或拒绝。部署时只留下一个 完成迭代的 best_skill.md(300~2k token),零额外推理开销


三、实现方案

3.1 前向传播

每步从训练集采样一批任务,target model 带着当前 skill 执行。执行框架(harness)记录完整轨迹:消息、工具调用、观察结果、最终答案、验证反馈。这批轨迹就是本步的 "梯度信号" 来源

3.2 反向传播

一个独立的前沿 LLM 充当 optimizer(只在离线训练时运行,部署时不参与)。它将轨迹转化为 skill 编辑:

  1. 把失败和成功轨迹分开,各自切成 minibatch
  2. 失败 minibatch 暴露反复出现的系统性错误(比如 Agent 总是搜索了错误来源、写错答案格式、不验证工具返回)
  3. 成功 minibatch 保留已经有效的行为模式
  4. 每个 minibatch 返回结构化的 add / delete / replace 编辑
  5. 层次化合并:先组内去重,再跨组合并(失败修正优先)

为什么用 minibatch 而不是逐条分析?单条轨迹容易产生 "个案补丁",即只对特定问题做针对性修复。Minibatch 能暴露反复出现的系统性错误模式,生成的规则才是可泛化的

3.3 编辑预算

合并后的编辑池被 optimizer 按预期效用排序,然后截断到预算上限(比如每步最多改 4 条规则)。这是和无约束重写的关键区别:

  • 无约束重写可能一次擦除有用规则、引入矛盾指令、或过拟合到某个局部失败
  • 有界更新保持连续性,每一版 skill 和上一版足够接近,后续 optimizer 才能从版本历史中学习

3.4 验证门控

每个候选 skill 必须在 held-out 集上评估。只有严格大于当前最高分才被接受,平局也算拒绝。这个门控非常保守,保证 skill 不会静默漂移

被拒绝的编辑不是浪费,它们会进入 rejected-edit buffer,后续 reflection 会看到 "之前试过什么、为什么没用",避免重复走老路

3.5 长期方向

除了上述直接学习当前 batch 教训的流程以外,SkillOpt 还模仿了优化算法中的动量概念,以 "慢速更新" 的方式学习跨 epoch 的长期规律

每个 epoch 结束时,系统会对比前后表现,将稳定的编辑方向写入一个受保护字段,后续 step 级别的编辑不能覆盖它

短期波动不会冲掉长期积累的经验。


四、实验结果

4.1 实验设置

  • 6 个 benchmark:SearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMath、ALFWorld
  • 7 个 target model:GPT-5.5 / 5.4 / 5.4-mini / 5.4-nano / 5.2、Qwen3.5-4B、Qwen3.6-35B-A3B
  • 3 种执行模式:直接 chat、Codex harness、Claude Code harness
  • 7 个 baseline:No skill、Human skill、LLM skill、Trace2Skill、TextGrad、GEPA、EvoSkill

4.2 主实验

52 个 (模型×benchmark×harness) 格子全部最优或并列最优。

GPT-5.5 在直接 chat 模式下,六个 benchmark 平均从 58.8 提升到 82.3(+23.5 分)。把每个格子最强的 baseline 挑出来构成 oracle,SkillOpt 平均还高 +5.4 分。

程序性任务收益最大,这类任务有严格格式要求和多步工具调用,正是 skill 能发挥最大价值的地方

小模型收益相对更大:GPT-5.4-nano 在 DocVQA 上接近翻倍、ALFWorld 上接近翻三倍。这说明小模型不是缺能力,而是缺程序性纪律,一个简洁的 skill 就能弥补

4.3 消融实验

Slow update 的衰退最为剧烈,是消融中最大的一项,说明跨 epoch 的长期记忆对程序性任务至关重要。相比之下,具体用什么 batch size 或 schedule 影响不大,性能在合理范围内都很稳定

4.4 泛化性

Codex 训练的 SpreadsheetBench skill 迁移到 Claude Code 后,甚至超过了 Claude Code 的 in-domain 优化结果(81.8 vs 80.4)。这说明 skill 编码的是领域级程序性知识,不是某个执行环境的特定命令配方


4.5 Skill 产物分析

各 benchmark 下代表性的学成规则:

实际运行中,skill 文档一般只接受了 1-4 次编辑,最终文档也不会无序膨胀(token 数 379 ~ 1995,中位数在 920 左右),因为 validation gate 做了严格筛选,最终只有极少数通过了 held-out 检验。但最终提升是巨大的


五、启发

  1. Skill-as-trainable-state:把 skill 当权重训练而非手工维护,是 Agent 领域适配的新范式
  2. 有界更新 + 验证门控 = 稳定优化:这是文本空间优化能够稳定工作的关键。无约束重写不仅不稳定,还可能擦除好的规则
  3. 小模型的性能潜力:像 gpt-nano 这种小尺寸模型,在经过 1-4 次编辑后得到了几十分的提升。这说明它很多时候不是能力不够,而是缺少程序性纪律,并且这能通过优化 skill 文档来弥补
  4. Skill 是领域知识,不是环境命令:跨模型、跨 harness、跨 benchmark 的正向迁移证明了这一点

局限:目前 validation gate 依赖可自动评分的 benchmark。对于开放式任务(写作、创意类),没有明确的正确答案来做门控,需要探索偏好驱动或无奖励的验证方式

相关推荐
吃好睡好便好1 小时前
矩阵的左乘和右乘
人工智能·学习·线性代数·算法·matlab·矩阵
俊哥V1 小时前
每日 AI 研究简报 · 2026-05-30
人工智能·ai
陕西企来客1 小时前
陕西 RAG 权重调整技术对于 GEO 优化的深度调查:企来客逆 RAG 技术升级真相揭示
人工智能
Aloudata1 小时前
AI 黑盒生成 vs 原子语义组合:企业指标生产路径深度对比
大数据·人工智能·数据分析·指标平台·语义层
星辰AI1 小时前
Function Calling 技术实现:让 AI 与世界交互
人工智能·ai·语言模型
把你拉进白名单1 小时前
3.OpenClaw源码解析_通道的概念
人工智能
CoLiuRs1 小时前
构建 AI 原生企业:从架构原则到工程落地
人工智能·架构
Lkstar1 小时前
Temperature 与 Top P:大模型输出的"调音台"
人工智能
段一凡-华北理工大学1 小时前
工业领域的Hadoop架构学习~系列文章04:YARN资源调度架构
人工智能·hadoop·学习·架构·系统架构·高炉炼铁·高炉炼铁智能化