让Skill从执行中生长：Cloud Agent Harness的三段式Skill自进化机制

作者 | Leonardo Li; Rain Zhang; Jian Huang

Agent的能力边界，很大程度上取决于其掌握的Skill质量和数量。传统做法是靠人工编写和维护Skill，但这条路很快会遇到瓶颈。业务场景变化比文档更新快，操作者发现的技巧很难被系统化沉淀，大量有价值但低频的操作经验最终流失在日志里。要让Agent真正适应复杂的任务场景，Skill必须具备自动从实践中生长和优化的能力。

然而，Skill自进化面临着工程落地的巨大挑战。Agent的任务轨迹里混杂着正确步骤、试错分支和各种偶然成功，自动提炼的时候很容易把噪声当成经验，提炼出来的Skill可能反而偏离了实际的操作逻辑。即使Skill成功生成了，也很难保证它能持续变好，迭代几轮之后可能就停在某个水平不再提升，甚至在某些场景下慢慢退化。这些问题让自进化在工程落地时，每一步都需要仔细设计校验和兜底机制，才能让进化不失控。

围绕这些问题，华为云Agent技术体系采用了三段式Skill自进化机制，目标是让有价值的Skill从真实办公行为中被自动发现和沉淀，在隔离环境中持续进化，最终打磨成可靠且精准的Skill。

1. Skill自进化技术流派

根据技术路径的不同，现阶段Skill自进化可分为三种技术流派，三种流派在数据来源、优化机制和质量控制上各有侧重。

▍轨迹蒸馏

轨迹蒸馏的核心思想是将Agent的历史轨迹获取作为Skill生长的基础，典型代表包括有Hermes Agent、GenericAgent和SkillX。

其自进化特点是让Agent在完成复杂任务、遭遇错误或接收用户纠正后，自动触发反思机制，将执行轨迹中的成功步骤、失败陷阱和修正过程提炼为结构化的Skill。像Hermes Agent会在任务成功时调用Skill_manage工具生成标准SKILL.md，并通过补丁机制精准更新Skill的失效描述。GenericAgent则以最小原子工具集在走通路径后将其内化为可调用Skill。SkillX则进一步将轨迹蒸馏为规划、功能、原子三个抽象层级，使弱Agent也能通过强Agent的蒸馏产物获得能力提升。

轨迹蒸馏进行Skill自进化的数据效率极高，同时具备Skill可解释可审计、迁移性强且运行成本较低的优点，当任务有清晰成功信号时能稳定进化。缺陷是Skill质量高度依赖已有轨迹的覆盖度和种子任务质量，若某类任务从未成功执行或缺乏失败记录，Skill进化便无法启动，同时它天然缺乏主动探索未知领域、拓宽能力边界的机制，在没有经验积累的环境中拓展速度受限。

▍进化迭代

进化迭代基于进化算法，将Skill的自我改进建模为变异---评估---选择的迭代过程，其自进化特点是显式维护一个候选种群，用LLM驱动的语义变异产生新个体，在评估集上量化适应度，再通过精英保留、帕累托前沿筛选等策略保留优势变体进入下一轮。

Hermes Agent通过引入GEPA将Prompt作为进化个体，引入反思式变异使改写方向由执行轨迹的失败分析引导，同时用Pareto选择维持多样性；EvoSkill中则以Skill文件夹为进化单元，仅在任务失败时触发变异，生成一个当前表现最好的top N个模型+Skill组合的集合，不断的从集合中选择父本进行变异，然后对集合进行优胜劣汰；HyperAgents将进化对象扩展至Agent的全部代码和元Agent自身，实现极高的变异自由度；Harness Evolution Loop则通过进化搜索自动修改Harness的提示词和工具编排，并在外层用元进化优化内层进化过程本身。

进化迭代的优点在于探索能力强、可持续自我提升，且可能产生跨任务甚至跨语言的泛化能力，尤其适合有明确客观度量指标的领域。但其计算成本高昂、评估信号偏差可能导致作弊式进化，同时在高自由度变异时安全可控性不足，需沙箱和人工审查配合，并且对于缺乏量化指标的开放性任务效果未知。

▍评估驱动的工程优化

评估驱动的工程优化是将Skill和prompt视为可测试、可度量、可版本化迭代的软件模块，其核心思想是预先定义覆盖典型场景的测试用例与评估指标，每一次Skill修改都在独立清洁上下文中运行评估管道，通过对比启用与禁用Skill的输出结果或自动搜索提示词空间来发现改进，并将其作为可审计的版本进行管理。

DSPy框架将提示词优化编译为声明式问题，开发者仅需定义签名和指标，优化器自动搜索最优提示词组合。Anthropic Skill Creator 2.0提供可视化评估界面，自动重写触发描述并盲测比较输出质量。目前业界已有的工作在企业知识库上锚定Skill生成，用三阶段故障诊断流水线定位缺陷并重写Skill。

评估驱动的Skill进化优点在于质量高度可控、安全合规性强、非技术人员也能参与迭代，且部署成本相对可控，更适用于企业级落地。但相比于Agent的自主进化，评估驱动的方式自主性有限，Skill创建和评估标准仍需人类定义，优化的维度受预先设定的测试维度所限，难以自动发现超越人类预设的能力组合，想象力方面稍显欠缺。

2. Agent Harness的三段式Skill自进化机制

华为云AgentHarness的Skill自进化机制综合了以上三种流派的优点，首先从Agent的任务轨迹中自动沉淀Skill原型，然后是在隔离环境中对Skill进行定向进化，整个进化过程由评估管道提供质量防线，确保进化不会引入退化。其核心组件如下：

任务反思引擎：驻留在Agent运行时中，监听复杂任务的成功完成及用户的手动修正。当任务复杂度或用户干预超过阈值时，自动将执行日志中的成功步骤、分支判断及异常修复提炼为标准Skill文件。

技能存储：个人工作空间的Skill实时生效并随用户迁移，团队空间中的Skill经脱敏和泛化后可被组织内其他成员订阅。

进化工厂：定期对团队空间中的Skill执行变异筛选，持续优化Skill的触发准确度与执行鲁棒性。

评估管道：自动化多维测试用例，并行测评新老 Skill，确保进化出的版本在多维度上综合最优。

▍第一阶段：任务反思

华为云Agent技术体系，以OfficeClaw应用为例，成功执行一次任务后，本次任务的全部执行数据------包括用户的原始请求、Agent的每步工具调用及其输入输出、分支决策、出现的错误及修复过程、以及用户手动介入的节点会被完整序列化为任务执行轨迹。任务反思引擎异步根据预设的触发条件判断是否执行任务反思。触发反思后，引擎调用LLM对完整轨迹进行分析，目标是将这段经验压缩为一个结构化的Skill文档，仅保留使任务成功所必需的步骤，丢弃那些被废弃的试错分支，确保生成的Skill简洁且信息密度高。若该任务涉及用户对已有Skill的修正，引擎不会重写整个文件，而是精准修改Skill中对应的段落。

这种补丁机制既保留了原始经验的价值，又避免了全文重写带来的计算开销。所有新生成或更新后的Skill首先进入该用户的Agent技能库，供其后续同类任务时直接调用。个人技能库中的Skill不会自动共享到其他用户或团队，除非用户主动将Skill上传至Skill-hub。

▍第二阶段：进化筛选

进化工厂在系统预定的低负载窗口内启动，对选定范围的Skill执行批量优化。该阶段包含三个步骤**：选取、变异、筛选**。

选取阶段，进化器根据近期执行日志中的信号决定待优化Skill的优先级。失败率偏高的Skill优先进入队列，长期未被调用但仍有订阅者的Skill次之，表现稳定的Skill排在最后。

变异阶段，针对每个待优化Skill，进化器执行反思式变异。与任务反思不同，此时进化的输入是该Skill近期所有执行的失败日志，而非单次成功轨迹。进化Agent分析失败原因，例如触发条件过窄导致本应激活时未激活、操作步骤在特定条件下失效、参数建议值不合理等，然后为每个失败模式生成针对性的修改方案。一个Skill的变异体数量不同，根据Skill的调用频率和失败次数动态决定，每个变异体在保持原意的前提下调整Skill的措辞、步骤顺序或参数建议。

筛选阶段，所有变异体进入评估管道接受质量检定。

▍第三阶段：评估管道

评估管道对每个变异体执行三层检查：

首先是准入检查，包括格式校验、安全扫描和最小功能测试。格式校验确保Skill符合标准文档结构且不包含幻觉出的工具调用，安全扫描确保Skill不会建议越权和危险操作，最小功能测试在一组简化用例上验证Skill可以被Agent正确加载和执行。

然后是效果评估，通过准入检查的变异体在沙箱环境中运行一组完整的测试用例。测试用例由两个来源组成，Skill创建时根据其描述自动合成的覆盖正常、边缘和少量对抗场景的用例，以及从该Skill历史执行日志中采样出的高价值回归用例。每个变异体在独立的上下文环境中执行全部测试，系统记录其准确率、执行延迟、Token消耗和安全合规评分。

最后是目标筛选，评估结果汇总后，进化Agent对比每个变异体与原始Skill的差异。一个变异体被保留的基本条件是它在多维度上的综合表现不差于原始Skill，且至少在一个维度上严格优于原始Skill。同时，为了维持技能池的多样性，系统不会只保留唯一的最优版本，而是允许在某个特定维度上有显著优势的变体同时存在，为下一轮进化提供样本。一个可选的步骤是用户可配置是否人工审核进化后的Skill以保证进化的确定性。

3. Skill 自进化的未来方向

截止到本文发出，仍然有源源不断的Skill自进化项目涌现，开源社区、各大厂商、高校学者都在积极投入到Skill进化的范式实践当中。可以肯定的一点是，自进化能力将作为企业 AI基础设施的原生组件被提供。复旦大学的GenericAgent在其不到3.3K行核心代码中已经证明了自进化可以极度轻量化，而SkillForge在云技术支持场景的实践进一步证明了其企业价值，这也是华为云Agent未来的发力重心。

从Hermes-Agent发布到现在，行业已经完成了从"能不能生成Skill"到"能不能生成好Skill"的战场转移。接下来，Skill的评估验证和高质量记忆将成为自进化技术的核心战场，还以GenericAgent举例，上下文信息密度最大化的核心设计原则说明了可控的Token预算和高质量的记忆管理比生成能力本身更关键。除此之外，伴随着Skill自主进化带来的不确定性，Skill生态安全的监管压力将显著加大，强制性的Skill安全认证机制势在必行。

4. 小结

华为云Agent技术应用的三段式Skill自进化机制将业界主流技术融合优化，核心思路是用不同的方法解决不同阶段的问题。任务反思从日常任务中低成本地捕捉可复用的经验，解决Skill从哪里来的问题。进化工厂在隔离环境中对Skill做定向优化，解决Skill如何持续变好的问题。评估管道用自动化的多维测试守住质量底线，解决什么是好Skill的问题。三个环节环环相扣，让Skill的生命周期完成执行-反思-生成-优化-验证-执行的闭环。