引言
"与其手动微调 Prompt,不如建立一套让指令自我进化的生态系统。"
这是"一天一个开源项目"系列的第119篇文章。今天我们要介绍的是 Darwin Skill (达尔文.skill)。
如果你在使用 Claude Code、Trae 或其他支持 SKILL.md 规范的 AI Agent 工具,你可能会发现手动维护这些技能文件非常繁琐。Darwin Skill 的出现,将机器学习中的"训练"思想引入到了提示词工程中。它像一个永远向前转的"棘轮",通过自动化的实验循环,确保你的 AI 技能在每一次微调后都能变得更强。
你将学到什么
- 什么是"技能进化"的棘轮机制(Ratchet Mechanism)
- 受 Karpathy 启发的自主实验循环流程
- 如何结合"人在回路"(Human in the Loop)进行高可靠的指令迭代
项目背景
项目简介
Darwin Skill 是一个让 AI 技能无限进化的系统。它将 Agent 执行任务的指令资产(SKILL.md)视为一种可以被"训练"的对象。通过对技能进行多维度的评分、针对性的改进建议以及严苛的回归测试,它只保留那些经证实的改进。
该项目目前处于 v2.0 版本,系统性地吸收了微软研究院关于 SkillOpt 和 SkillLens 的最新研究成果。
核心价值
- 结果导向:不仅检查指令的结构是否正确,更注重实际运行后的效果得分。
- 只增不减 :类似于
git ratchet机制,如果一轮优化导致分数下降,系统会自动执行git revert,确保能力不会退化。 - 消除偏差:坚持"独立评分"原则,避免"自己考自己"的 LLM 自评偏差。
主要功能
1. 9 维度评估体系
Darwin Skill 参考了微软的实证研究,建立了包含"失败模式编码"、"可执行具体性"和"高风险行动黑名单"在内的 9 维评分矩阵(满分 100)。这让优化从模糊的感觉变为了精准的数字。
2. 自动化优化循环
典型的优化周期分为 5 个阶段:
- 基线评估:了解当前技能的短板。
- 针对性改进:每一轮只改一个维度,确保变量可控。
- 验证与测试:运行预设的测试提示词(test-prompts.json),验证改进是否真实有效。
- 保留或回滚:新分高于旧分则提交,否则回滚到上一个稳定版本。
3. 人在回路 (Human in the Loop)
区别于全自动优化系统,Darwin Skill 在关键节点(如 Phase 2 的 CHECKPOINT)会强制暂停,展示 Diff 差异和分数变化,等待用户的最终确认。这种设计既利用了 AI 的效率,又保留了人类的审美与安全边界。
项目剖析
受 autoresearch 启发的映射逻辑
Darwin Skill 巧妙地将 Karpathy 的 autoresearch 逻辑映射到了 Skill 领域:
| autoresearch | Darwin Skill | 逻辑说明 |
|---|---|---|
program.md |
SKILL.md 本身 | 定义目标与规则 |
train.py |
待优化的 Skill 文件 | 被优化的核心资产 |
val_bpb |
9 维加权总分 | 量化的性能指标 |
git ratchet |
回滚机制 | 确保进度不会倒退 |
这种"棘轮机制"确保了随着时间的推移,你的 AI 技能库会像生物进化一样,由于自然选择(验证门控)的作用,越来越适应复杂的任务场景。
项目地址与资源
官方资源
- 🌟 GitHub : alchaincyf/darwin-skill
- 📦 快速安装 :
npx skills add alchaincyf/darwin-skill - 📖 设计灵感 : 受 Andrej Karpathy 的 autoresearch 启发。
总结
Darwin Skill 不仅仅是一个工具,它代表了一种全新的 Agent 开发范式:指令即实验,迭代即进化。通过科学的评估标准和严谨的回滚机制,它让每一位开发者都能构建出具备生产级可靠性的 AI 技能。
如果你发现你的 AI 指令总是"时好时坏",那么是时候用"达尔文进化论"来重塑你的技能库了。
欢迎来我的个人主页找到更多有用的知识和有趣的产品