SkillNexus：开源 Skills 全生命周期创造平台

作者：skyseraph

日期：2026-05-02

原文：SkillNexus Intro

开源：SkillNexus
Skills 全生命周期创造平台，让你的 Skill 可生成、可量化、可管理、可成长。

你写的 Skill，到底有多好用？

打开 ~/.claude/skills/，数一数里面有多少个文件。

10 个？20 个？还是一堆叫不出名字的 my-prompt-v3-final？

更难回答的问题是：你知道哪个 Skill 真的好用吗？

大多数人的答案是：凭感觉。

Skill 是什么

如果你用过 Claude Code、Cursor 或 Windsurf，你一定接触过 Skill------一段 Markdown 文件，包含 YAML frontmatter 和自然语言指令，作为 system prompt 影响 AI 的行为。

markdown 复制代码

---
name: code-review
description: 执行代码审查，关注安全、性能和可读性
tags: [review, security]
---

你是一位资深工程师，负责审查代码。
请按安全性、性能、可读性三个维度分析，
输出问题列表和可直接替换的代码片段。

这类文件可以安装到 Claude Code 的 .claude/commands/、或 Cursor 的 .cursorrules，让 AI 在特定场景下按你的意图工作。

Skill 解决了"能力的载体"问题------模块化、可分发、跨工具。

但它没有解决：这个 Skill 好不好？怎么让它持续变好？

从"写提示词"到"培育能力"的认知跃迁

传统 Skill 创建的问题不在于写法，而在于缺乏闭环：

写完即丢，没有版本管理
效果好坏靠主观感受，没有量化数据
模型换代后只能从零调试
多人协作时同一能力被反复重造

Skill 标准只定义了"能力的载体"------如何生成、如何量化、如何持续改进，依然是空白。

SkillNexus 填补了这个空白。

真正的问题

随着 AI 工具普及，开发者积累的 Skill 越来越多，但面临几个共同困境：

写完不知道好不好------靠主观感受，没有量化数据。一个 Skill 在常见任务上表现不错，在边界情况下可能完全失效，但你不知道。

进化靠猜------改了一版，感觉"差不多"，但不知道哪个维度变好了、哪个退步了。没有对比数据，优化靠直觉。

模型换代后悄悄失效------Claude 升级，原来调好的 Skill 可能悄悄变差，你甚至察觉不到。

重复造轮子------团队里三个人各自维护功能几乎相同的 code-review Skill，谁也不知道哪个最好。

这不是个人管理能力的问题。是 Skill 开发本身缺少基础设施。

SkillNexus：Skill 的全生命周期平台

SkillNexus 是一款桌面应用（Mac / Windows），把 Skill 从生成到进化的完整链路收进一个工具：

复制代码

Home（管理）→ Studio（生成）→ TestCase（用例）→ Eval（评测）→ Evo（进化）→ Trending（榜单）

每一步都不是孤立功能，而是数据流转的节点：Studio 生成的 Skill 进入 Home 管理，TestCase 为 Skill 建立数据集，Eval 产出评分，Evo 消费评分产出进化版本，Trending 从历史评分中聚合排行------形成完整的能力培育闭环。

Studio：6 种方式生成 Skill

不知道怎么写 Skill？Studio 给了你 6 条路：

模式	说明
描述生成	用自然语言说清楚需求，AI 生成完整 Skill
示例归纳	提供几组 Input/Output 样本，AI 从中归纳行为规则
对话提炼	把历史对话粘贴进来，把"调法"固化成 Skill
文档提炼	上传 PDF、Markdown 或 TXT，从技术规范、SOP 中提炼
手动编辑	直接写或粘贴已有内容
Agent 设计	构建工具调用型 Agent Skill

每种模式生成后都有实时 5D 质量预评分，安装前就知道这个 Skill 大概在什么水平。

Eval：8 个维度，量化"好不好"

感觉好用和真的好用，差的是数据。

这是 SkillNexus 最核心的技术创新，也是让"感觉还行"变成"数据说话"的关键。

评测维度分为两组：

G 系列（任务质量）：衡量 Skill 产出的结果好不好

维度	含义
G1 · Correctness	输出是否正确完成任务目标
G2 · Instruction Following	是否严格遵循格式和约束
G3 · Safety	输出是否安全、中立、无害
G4 · Completeness	是否涵盖所有必要内容
G5 · Robustness	对边界/模糊输入的鲁棒性

S 系列（Skill 质量）：衡量 Skill 本身写得好不好

维度	含义
S1 · Executability	指令是否清晰可操作
S2 · Cost Awareness	输出是否简洁，避免 token 浪费
S3 · Maintainability	结构是否清晰易维护

8 个维度里：

G 系列能告诉你"Skill 有没有做对事"
S 系列能告诉你"Skill 有没有把事做好"
两者的分离设计是核心洞察：一个 Skill 可能任务成功率高但 token 耗费惊人，也可能指令模糊但碰巧跑对了

评测支持三种模式：

模式	说明
单次评测	对当前版本出分
对比模式	A vs B 版本并排可视化差异，确认进化是否有效
三条件基线	无 Skill 组 vs 当前版本 vs AI 生成版，量化"装上这个 Skill 到底增益了多少"

每次评测都留下历史记录，雷达图、趋势折线、热力图全部可视化。

Evo：让 Skill 自动变好

评测出了分，发现 Skill 有问题之后呢？

SkillNexus 内置 8 种进化策略，覆盖从交互式微调到全自动迭代的全场景。

Studio 流式进化（实时可见）

策略	核心思路
`evidence`	外科手术式修复------把评测低分条目作为证据，精准定位问题并修复
`strategy`	策略矩阵------用户指定优化目标（如"提升 G1+S2"），AI 给出针对性改进方案
`capability`	能力感知编译------分析 Skill 对 AI 执行能力的要求，降低门槛

自动化 SDK 引擎（后台批量）

引擎	核心思路
EvoSkill	最差样本驱动：找出低分用例针对性改进，多轮迭代收敛
CoEvoSkill	生成器-验证器循环：生成改进方案 + 对抗性测试验证，相互博弈
SkillX	成功模式提取：从高分历史中归纳规律，编码进 Skill 正文
SkillClaw	集体失败分析：跨会话聚类失败模式，找结构性缺陷
SkillMOO	多目标 Pareto 优化：在质量与 token 效率之间找最优解集

基于所有历史评测数据，Trending 按 8 个维度实时排名------哪个 Skill 真正在用、真正好用，数据说话。

为什么是桌面应用

你的 Skill 文件和 API Key 都是本地资产，不应该经过任何第三方服务器。

Skill 文件存在 ~/.claude/skills/，与 Claude Code 直接共享，零迁移成本
API Key 只在主进程内存中存在，渲染进程拿不到
支持本地 Ollama，完全离线可用
评测任务（Shell 命令执行）需要访问本地环境

技术栈

层	选择	理由
桌面框架	Electron 31 + electron-vite 2.3	跨平台、原生文件访问、IPC 安全隔离
前端	React 18 + TypeScript 5.5	流式渲染（Streaming UI）、类型安全
业务存储	better-sqlite3 11	零网络延迟、事务完整性、进化历史持久化
配置存储	electron-store 8（加密）	API Key 安全、跨重启持久
AI SDK	@anthropic-ai/sdk 0.39	支持流式输出；via baseURL 兼容 13+ Provider
测试	Vitest 2（693 tests，38 suites）	纯逻辑层快速测试，无 Electron 依赖

开源，现在可用

SkillNexus 以 Apache 2.0 协议开源，支持 macOS 和 Windows。

bash 复制代码

git clone https://github.com/skyseraph/SkillNexus.git
cd SkillNexus
npm install && npm run rebuild
npm run dev

如果你在用 Claude Code、Cursor 或任何支持 Skill 标准的 AI 工具，SkillNexus 可以直接扫描导入你现有的 Skill 目录，5 分钟内完成第一次评测。

感兴趣参与内测，或者有想法想交流，欢迎留言或私信。

系列文章

#	文章
01	你的 Skill 目录，正在变成屎山
02	5 分钟完成第一次 Skill 评测
03	从一行描述到可用 Skill------Studio 的 5 种创作模式
04	8 维度评测框架：让"感觉还行"变成数据
05	进化引擎：让 Skill 自动变好
06	Trending 榜单：你的 Skill 资产地图
07	技术架构：Electron 双进程 + 零依赖进化 SDK
08	现状与路线图：SkillNexus 的下一步
09	评测报告不只是看完就算------离线报告系统
10	可视化设计：为什么 Skill 评测需要 6 种图表

让 Skill 从「凭感觉」变成「有数据」，从「堆文件」变成「有生命」。

SkillNexus --- 让能力可生成、可量化、可管理、可成长