每日一个开源项目（第119篇）：Darwin Skill - 受 Karpathy 启发，让 AI 技能无限进化的“棘轮”系统

引言

"与其手动微调 Prompt，不如建立一套让指令自我进化的生态系统。"

这是"一天一个开源项目"系列的第119篇文章。今天我们要介绍的是 Darwin Skill (达尔文.skill)。

如果你在使用 Claude Code、Trae 或其他支持 SKILL.md 规范的 AI Agent 工具，你可能会发现手动维护这些技能文件非常繁琐。Darwin Skill 的出现，将机器学习中的"训练"思想引入到了提示词工程中。它像一个永远向前转的"棘轮"，通过自动化的实验循环，确保你的 AI 技能在每一次微调后都能变得更强。

你将学到什么

什么是"技能进化"的棘轮机制（Ratchet Mechanism）
受 Karpathy 启发的自主实验循环流程
如何结合"人在回路"（Human in the Loop）进行高可靠的指令迭代

项目背景

项目简介

Darwin Skill 是一个让 AI 技能无限进化的系统。它将 Agent 执行任务的指令资产（SKILL.md）视为一种可以被"训练"的对象。通过对技能进行多维度的评分、针对性的改进建议以及严苛的回归测试，它只保留那些经证实的改进。

该项目目前处于 v2.0 版本，系统性地吸收了微软研究院关于 SkillOpt 和 SkillLens 的最新研究成果。

核心价值

结果导向：不仅检查指令的结构是否正确，更注重实际运行后的效果得分。
只增不减 ：类似于 git ratchet 机制，如果一轮优化导致分数下降，系统会自动执行 git revert，确保能力不会退化。
消除偏差：坚持"独立评分"原则，避免"自己考自己"的 LLM 自评偏差。

主要功能

1. 9 维度评估体系

Darwin Skill 参考了微软的实证研究，建立了包含"失败模式编码"、"可执行具体性"和"高风险行动黑名单"在内的 9 维评分矩阵（满分 100）。这让优化从模糊的感觉变为了精准的数字。

2. 自动化优化循环

典型的优化周期分为 5 个阶段：

基线评估：了解当前技能的短板。
针对性改进：每一轮只改一个维度，确保变量可控。
验证与测试：运行预设的测试提示词（test-prompts.json），验证改进是否真实有效。
保留或回滚：新分高于旧分则提交，否则回滚到上一个稳定版本。

3. 人在回路 (Human in the Loop)

区别于全自动优化系统，Darwin Skill 在关键节点（如 Phase 2 的 CHECKPOINT）会强制暂停，展示 Diff 差异和分数变化，等待用户的最终确认。这种设计既利用了 AI 的效率，又保留了人类的审美与安全边界。

项目剖析

受 autoresearch 启发的映射逻辑

Darwin Skill 巧妙地将 Karpathy 的 autoresearch 逻辑映射到了 Skill 领域：

autoresearch	Darwin Skill	逻辑说明
`program.md`	SKILL.md 本身	定义目标与规则
`train.py`	待优化的 Skill 文件	被优化的核心资产
`val_bpb`	9 维加权总分	量化的性能指标
`git ratchet`	回滚机制	确保进度不会倒退

这种"棘轮机制"确保了随着时间的推移，你的 AI 技能库会像生物进化一样，由于自然选择（验证门控）的作用，越来越适应复杂的任务场景。

项目地址与资源

官方资源

🌟 GitHub : alchaincyf/darwin-skill
📦 快速安装 : npx skills add alchaincyf/darwin-skill
📖 设计灵感 : 受 Andrej Karpathy 的 autoresearch 启发。

总结

Darwin Skill 不仅仅是一个工具，它代表了一种全新的 Agent 开发范式：指令即实验，迭代即进化。通过科学的评估标准和严谨的回滚机制，它让每一位开发者都能构建出具备生产级可靠性的 AI 技能。

如果你发现你的 AI 指令总是"时好时坏"，那么是时候用"达尔文进化论"来重塑你的技能库了。

欢迎来我的个人主页找到更多有用的知识和有趣的产品