每日一个开源项目(第119篇):Darwin Skill - 受 Karpathy 启发,让 AI 技能无限进化的“棘轮”系统

引言

"与其手动微调 Prompt,不如建立一套让指令自我进化的生态系统。"

这是"一天一个开源项目"系列的第119篇文章。今天我们要介绍的是 Darwin Skill (达尔文.skill)

如果你在使用 Claude Code、Trae 或其他支持 SKILL.md 规范的 AI Agent 工具,你可能会发现手动维护这些技能文件非常繁琐。Darwin Skill 的出现,将机器学习中的"训练"思想引入到了提示词工程中。它像一个永远向前转的"棘轮",通过自动化的实验循环,确保你的 AI 技能在每一次微调后都能变得更强。

你将学到什么

  • 什么是"技能进化"的棘轮机制(Ratchet Mechanism)
  • 受 Karpathy 启发的自主实验循环流程
  • 如何结合"人在回路"(Human in the Loop)进行高可靠的指令迭代

项目背景

项目简介

Darwin Skill 是一个让 AI 技能无限进化的系统。它将 Agent 执行任务的指令资产(SKILL.md)视为一种可以被"训练"的对象。通过对技能进行多维度的评分、针对性的改进建议以及严苛的回归测试,它只保留那些经证实的改进。

该项目目前处于 v2.0 版本,系统性地吸收了微软研究院关于 SkillOptSkillLens 的最新研究成果。

核心价值

  1. 结果导向:不仅检查指令的结构是否正确,更注重实际运行后的效果得分。
  2. 只增不减 :类似于 git ratchet 机制,如果一轮优化导致分数下降,系统会自动执行 git revert,确保能力不会退化。
  3. 消除偏差:坚持"独立评分"原则,避免"自己考自己"的 LLM 自评偏差。

主要功能

1. 9 维度评估体系

Darwin Skill 参考了微软的实证研究,建立了包含"失败模式编码"、"可执行具体性"和"高风险行动黑名单"在内的 9 维评分矩阵(满分 100)。这让优化从模糊的感觉变为了精准的数字。

2. 自动化优化循环

典型的优化周期分为 5 个阶段:

  • 基线评估:了解当前技能的短板。
  • 针对性改进:每一轮只改一个维度,确保变量可控。
  • 验证与测试:运行预设的测试提示词(test-prompts.json),验证改进是否真实有效。
  • 保留或回滚:新分高于旧分则提交,否则回滚到上一个稳定版本。

3. 人在回路 (Human in the Loop)

区别于全自动优化系统,Darwin Skill 在关键节点(如 Phase 2 的 CHECKPOINT)会强制暂停,展示 Diff 差异和分数变化,等待用户的最终确认。这种设计既利用了 AI 的效率,又保留了人类的审美与安全边界。


项目剖析

受 autoresearch 启发的映射逻辑

Darwin Skill 巧妙地将 Karpathy 的 autoresearch 逻辑映射到了 Skill 领域:

autoresearch Darwin Skill 逻辑说明
program.md SKILL.md 本身 定义目标与规则
train.py 待优化的 Skill 文件 被优化的核心资产
val_bpb 9 维加权总分 量化的性能指标
git ratchet 回滚机制 确保进度不会倒退

这种"棘轮机制"确保了随着时间的推移,你的 AI 技能库会像生物进化一样,由于自然选择(验证门控)的作用,越来越适应复杂的任务场景。


项目地址与资源

官方资源


总结

Darwin Skill 不仅仅是一个工具,它代表了一种全新的 Agent 开发范式:指令即实验,迭代即进化。通过科学的评估标准和严谨的回滚机制,它让每一位开发者都能构建出具备生产级可靠性的 AI 技能。

如果你发现你的 AI 指令总是"时好时坏",那么是时候用"达尔文进化论"来重塑你的技能库了。


欢迎来我的个人主页找到更多有用的知识和有趣的产品

相关推荐
Black蜡笔小新1 小时前
企业私有化AI训练推理一体工作站DLTM重构企业AI模型训练的全流程模式
人工智能·机器学习·重构
冬奇Lab1 小时前
Agent 系列(10):MCP 协议——工具生态的标准化接入
人工智能·agent·mcp
极客老王说Agent2 小时前
屏幕理解能力是下一代自动化的关键吗?2026年自动化范式演进深度解析
运维·人工智能·ai·chatgpt·自动化
YueJoy.AI2 小时前
低算力场景下中小企业接入大模型的商业化路径
人工智能·ai·语言模型
smart19982 小时前
U.2 NVMe全闪磁盘阵列让AI, ML, HPC业务运行稳性高效
人工智能·科技·存储
懷淰メ2 小时前
【AI加持】基于PyQt+YOLO+DeepSeek的疟原虫检测系统(详细介绍)
人工智能·yolo·计算机视觉·pyqt·医疗·ai分析·疟原虫
Black蜡笔小新2 小时前
自动化AI算法训练服务器DLTM训推一体化平台助力农业生产管理实现安全智能化
人工智能·算法·自动化
米小虾2 小时前
Claude Code、Codex、Cursor三分天下:2026年AI编程Agent生态全景剖析
人工智能·agent