Superpowers GSD gstack AgentSkills深度测评

Superpowers、GSD、gstack、Agent Skills 深度调研与测评:2026 AI 编程工作流框架全景解析

当所有人都在讨论 AI 能不能写代码时,真正的先行者已经在思考:如何让 AI 像工程团队一样写代码。 2025 年底至 2026 年中,Claude Code 生态爆发式增长,四大框架/协议------Superpowers、GSD、gstack、Agent Skills------从不同维度重新定义了 AI 编程的生产范式。本文基于大量一手资料与社区实测,对四者进行深度拆解、横向测评与选型建议。


目录


一、背景:为什么 2026 年必须谈"AI 编程工作流框架"?

1.1 从 Vibe Coding 到 Engineering Coding

2025 年,"Vibe Coding"(氛围编程)成为热词------对着 AI 聊天框提需求,它噼里啪啦吐代码,复制粘贴,完事。简单场景下确实爽,但一旦项目复杂起来,三大顽疾暴露无遗:

痛点 表现 根因
上下文腐烂 同一个会话用久了,AI 开始"失忆",忘记早期约束 上下文窗口饱和,早期信息被挤出
范围漂移 AI 把"有帮助"误判为"应该做",顺手改了八竿子打不着的模块 缺乏明确的任务边界与门控机制
质量失控 没有测试纪律,代码"看起来能跑"但 Bug 横飞 缺少 TDD、代码审查等工程护栏

1.2 框架的涌现:从"工具"到"工作流"

2026 年,Claude Code Skills 生态迎来爆发。截至 2026 年 5 月,GitHub 上已有 1400+ 个 Claude Code Skills ,官方 marketplace 收录超过 658 个 。但真正能留下来的,不超过 10 个。其中,Superpowers、GSD、gstack 构成了"三驾马车",而 Agent Skills 则是它们共同依赖的底层协议标准。


二、Agent Skills:一切能力的底层协议

2.1 从"工具"到"技能"的范式转移

2023-2024 年,"工具使用"(Tool Use)或"函数调用"(Function Calling)是连接 AI 与外部世界的主流方式------开发者将 API 定义为 JSON Schema,模型仅负责填充参数。进入 2025 年,"Agent Skills"逐渐取代单纯的"Tools"成为核心叙事

这不是营销辞藻的更迭,而是技术架构的根本性升级:

维度 Tools(工具) Agent Skills(技能)
抽象层级 原子化操作(如 get_weather 高阶能力封装(如"气象分析报告生成")
包含内容 仅 API 端点定义 提示词 + 逻辑代码 + 数据模板 + 外部连接
状态管理 无状态 状态感知与记忆
自描述性 依赖代码注释 自然语言文档(Markdown)语义自描述

2.2 生物学隐喻:大脑、手与皮层

  • 大脑(Brain):LLM,负责推理、规划、意图识别与决策。通用、概率性。
  • 手(Hands):具体执行工具(Tools/APIs),负责与数据库、SaaS 平台交互。确定、机械。
  • 皮层(Cortex/Skill Layer) :Agent Skills 所在的层次,存储"如何使用手完成特定任务"的过程性记忆(Procedural Memory)。

开发者不再仅仅是编写代码来调用 API,而是开始编写**"教科书"**------通过结构化的文档和代码混合体,教会 AI 像专家一样思考和行动。

2.3 Anthropic 的 SKILL.md 标准

Anthropic 在 2025 年 10 月推出的 Agent Skills 标准,代表了"文档驱动开发"在 AI 领域的极致应用。

目录结构:

bash 复制代码
financial-analysis-skill/
├── SKILL.md          # 核心:YAML 元数据 + 详细指令
├── scripts/          # 执行层:Python/Bash 脚本(沙盒环境)
│   ├── fetch_data.py
│   └── calculate_ratios.py
└── resources/        # 知识层:模板、参考文档、公式库
    ├── report_template.md
    └── accounting_standards.pdf

渐进式披露机制:

  1. 索引阶段:智能体仅读取 SKILL.md 头部的 YAML 元数据(Name、Description),极大节省 Token
  2. 匹配阶段:用户请求匹配到元数据描述时,才加载 SKILL.md 正文
  3. 执行阶段:正文包含 Step-by-step SOP、Few-Shot 示例、资源引用,按需执行脚本

这种设计使得一个智能体可以挂载成百上千个技能而不会撑爆上下文窗口

2.4 三大技术路径对比

维度 Anthropic(SKILL.md Microsoft(Semantic Kernel) OpenAI(Function Calling)
核心理念 文档驱动开发 插件与规划器编排 函数调用增强
技能载体 Markdown 文件 C#/Python Plugin JSON Schema
编排方式 渐进式披露 Planner 自动编排 手动链式调用
状态管理 文件系统持久化 内置状态管道 无状态
生态规模 1400+ Skills(2026.05) 企业级插件市场 OpenAI Function 生态

2.5 测评小结

评分维度 得分(5 分制) 说明
标准化程度 ⭐⭐⭐⭐⭐ SKILL.md 已成为事实标准,27+ 平台采纳
生态丰富度 ⭐⭐⭐⭐ 1400+ Skills,但质量参差不齐
学习曲线 ⭐⭐⭐ 概念清晰,但创建高质量 Skill 需要工程经验
互操作性 ⭐⭐⭐⭐ MCP 协议解决跨平台连接,但跨框架组合仍有摩擦

三、Superpowers:工程纪律的铁律执行者

3.1 一句话定义

Superpowers 是一个可组合的 AI 编程技能框架(Agentic Skills Framework),由 Jesse Vincent(obra)打造。它不改变 AI 的底层能力,而是为 AI 配备一套结构化的工作规范,让 Claude Code 从"游侠"变成"将军"。

3.2 核心数据

指标 数据
GitHub Stars 187K+(截至 2026.05)
作者 Jesse Vincent(obra)
开源时间 2025 年 10 月
协议 MIT
子技能数 14 个
兼容运行时 Claude Code、Codex、Copilot CLI、Cursor、OpenCode 等

3.3 设计哲学:Process over Prompt

Superpowers 的本质不是让 AI 变得更聪明,而是给 AI 套上软件工程的**"纪律与护栏"**。四个核心原则:

原则 传统方式 Superpowers 方式
测试驱动 先写代码,有空再测试 先写注定报错的测试,再写业务代码
系统化调试 瞎蒙修改→报新错→继续瞎蒙 4 阶段根因追踪,连续 3 次失败强制停止
代码审查 写完就合,出问题再说 双评审(规范+质量),Blocker 级问题冻结流程
并行执行 单线程串行 子代理并发,沙箱隔离

3.4 七大核心工作流

复制代码
需求澄清 → 任务拆解 → 并行执行 → 系统化调试 → 代码审查 → 验收 → 交付
命令 阶段 核心效果
/superpowers:brainstorm 需求澄清 苏格拉底式追问,生成含 6 个检查项的 PRD
/superpowers:write-plan 任务拆解 拆解为 2-5 分钟微任务,含文件路径与验证标准
/superpowers:execute-plan 并行执行 子代理并发 + Git Worktrees 沙箱隔离 + 强制 TDD
自动触发 系统化调试 4 阶段:根因调查→模式分析→假设验证→执行修复
自动触发 代码审查 双评审,Blocker 冻结,Review Passed 自动合入
/superpowers:review 验收 多维度扫描,自动修复简单问题
/superpowers:ship 交付 自动格式化、提交、创建 PR

3.5 实战亮点

  • 沙箱隔离:通过 Git Worktrees 创建平行工作区,AI 操作不影响主代码库
  • 子代理并发:复杂功能唤醒多个独立子代理同时开工,速度提升 3-5 倍
  • 强制 TDD:跳过测试直接写业务代码,Superpowers 会自动删除代码并提示"请先完成测试用例"
  • 调试兜底:连续 3 次修复失败,强制停止并提示"请重新审视系统架构"

3.6 安装方式

bash 复制代码
# 通过官方插件市场安装
/plugin marketplace add obra/superpowers-marketplace
/plugin install superpowers@superpowers-marketplace

3.7 测评小结

评分维度 得分(5 分制) 说明
工程纪律 ⭐⭐⭐⭐⭐ TDD + 双审查 + 沙箱隔离,最严格的执行框架
易用性 ⭐⭐⭐⭐ 安装极简,但流程门控多,小任务可能过重
并行能力 ⭐⭐⭐⭐ 子代理并发 + Git Worktrees,但不如 gstack 的多窗口并行灵活
上下文管理 ⭐⭐⭐ 不解决长会话腐烂问题,需搭配 GSD
社区活跃度 ⭐⭐⭐⭐⭐ 187K Star,生态最繁荣

四、GSD(Get Shit Done):上下文治理的编排引擎

4.1 一句话定义

GSD(Get Shit Done / Git. Ship. Done.) 是一个专为马拉松式长期项目设计的编排框架。它不给你加技能,而是给你一套工作流协议:把项目拆成多个阶段,每个阶段开启全新上下文窗口让子代理执行,主窗口始终保持低水位。

4.2 核心数据

指标 数据
GitHub Stars 63.8K+(截至 2026.05)
仓库 open-gsd/gsd-core
协议 MIT
子技能数 61 个(6 个命名空间路由)
兼容运行时 15+(Claude Code、OpenCode、Gemini CLI、Codex、Copilot、Cursor、Windsurf 等)
最新版本 v1.4.1(2026.06)

4.3 核心问题:上下文腐烂

上下文使用率 AI 状态 表现
0-30% 满电 全面、严谨、记得住所有约束
30-60% 可用 偶尔遗漏早期要求,但大体靠谱
60-80% 疲惫 频繁"失忆",开始凭惯性输出
80-100% 崩溃 严重偏离需求,幻觉频发

GSD 的解法:每个子任务开一个全新的上下文窗口。主窗口只负责调度和汇总结果,不会被实现细节占据。

4.4 六命令工作流

命令 阶段 做什么
/gsd-new-project 初始化 创建项目骨架,生成需求文档
/gsd-discuss-phase 讨论 自适应提问明确实现决策,产出上下文文档
/gsd-plan-phase 规划 分析当前阶段要做什么、怎么做
/gsd-execute-phase 执行 开子代理执行任务(可并行)
/gsd-verify-work 验证 验证成果,含专用调试代理
/gsd-ship 交付 合并、提交、发布

辅助命令:/gsd-resume-work(恢复上次上下文)、/gsd-pause-work(保存进度暂停)

4.5 持久化工件

项目全程在 .planning/ 目录中维护文档,不受 /clear 或会话关闭影响:

bash 复制代码
.planning/
├── PROJECT.md        # 项目总览
├── REQUIREMENTS.md   # 需求规格
├── ROADMAP.md        # 路线图
├── STATE.md          # 当前进度状态
└── CONTEXT.md        # 跨会话上下文记忆

今天关闭会话,明天 /gsd-resume-work 继续,所有状态都在文件中保留。

4.6 两级路由架构

GSD 采用两级路由------6 个命名空间路由技能下挂约 61 个具体子技能,将顶层技能列表从约 67 个压缩为 6 个入口,大幅减少认知负担

4.7 安装方式

bash 复制代码
npx @opengsd/gsd-core@latest

安装过程中自动检测并适配当前运行时(Claude Code、Cursor 等 15+ 平台)。

4.8 测评小结

评分维度 得分(5 分制) 说明
上下文管理 ⭐⭐⭐⭐⭐ 核心创新点,彻底解决长会话腐烂
跨平台兼容 ⭐⭐⭐⭐⭐ 15+ 运行时,最广泛的兼容性
工程纪律 ⭐⭐⭐ 有验证阶段,但不如 Superpowers 的 TDD 严格
易用性 ⭐⭐⭐ 6 命令简洁,但小任务流程过重
适合场景 马拉松式长期项目(1→10 阶段) 0→1 阶段太重,建议先用轻量工具

五、gstack:虚拟工程团队的角色驱动工作流

5.1 一句话定义

gstack 是由 Y Combinator 总裁兼 CEO Garry Tan 开源的 Claude Code 专属并行研发工作流 Skill 框架。它把 20+ 专业研发角色 + 8 个效率工具封装为 28+ 个斜杠命令,完整覆盖敏捷开发全流程:Think → Plan → Build → Review → Test → Ship → Reflect

5.2 核心数据

指标 数据
GitHub Stars 30K+(截至 2026.05)
作者 Garry Tan(YC 总裁 & CEO)
协议 MIT
角色数 23 个
斜杠命令 28+ 个
兼容运行时 Claude Code、Codex、Gemini CLI、Cursor 等

5.3 Garry Tan 的实战数据

"我在过去 60 天里,写了 60 万+ 行生产代码(35% 为测试用例),日均 1-2 万行,而且是在全职管理 Y Combinator 的兼职状态下完成的。"

  • 2026 年前 4.5 个月的代码产出量是 2013 年全年的 240 倍
  • 最近 7 天:增加 140,751 行代码,提交 362 个 Commits
  • 同样的人,不同的时代,核心变量就是 gstack

5.4 四维降维打击

维度 传统 AI 编程 gstack
交互模式 Blank Prompt(空白输入框) Role-Based(13+ 专家角色,斜杠命令调用)
能力边界 Text to Code(只能生成代码片段) Full SDLC(全生命周期:架构→编码→测试→部署)
安全哲学 YOLO Coding(凭感觉写) Test-Driven(强制覆盖率审查 + 回归测试)
工作场域 Single Thread(一次一个问题) Parallel Sessions(多窗口并发,10 个独立工作区)

5.5 五层解耦式并行架构

这是 gstack 最核心的技术创新,市面上 90% Claude 插件只有两层逻辑:

arduino 复制代码
┌─────────────────────────────────────────────┐
│  第一层:指令接入层(交互入口)              │  多终端、多窗口同时接入
├─────────────────────────────────────────────┤
│  第二层:角色 Skill 并行编排层(核心大脑)   │  9 大角色独立协程,可并行调度
├─────────────────────────────────────────────┤
│  第三层:Bun 常驻后台调度层(通信中枢)      │  58MB 单二进制,30min 空闲休眠
├─────────────────────────────────────────────┤
│  第四层:CDP 持久化无头浏览器执行层          │  常驻实例,100-200ms 响应
├─────────────────────────────────────────────┤
│  第五层:本地工程联动层(落地闭环)          │  Git API + 文件增量读写
└─────────────────────────────────────────────┘

关键创新 :传统插件浏览器用完即销毁,冷启动 3-5s;gstack 常驻浏览器实例,Cookie 持久保留,单指令执行仅 100-200ms

5.6 核心角色与命令

命令 角色 核心效果
/office-hours YC 创业导师 6 个强制问题戳中真实痛点,推翻伪需求
/plan-ceo-review CEO/创始人 10 个维度评审,砍掉无效需求
/plan-eng-review 架构师 ASCII 架构图 + 数据流 + 测试矩阵 + 安全风险
/review 资深审核工程师 并行扫描全项目,检测 Bug/规范/安全/性能
/qa QA 测试负责人 启动真实 Chromium 浏览器,自动走通完整业务流程
/ship 发布工程师 自动同步、跑测试、审计覆盖率、创建 PR
/retro 工程经理 全流程复盘,统计耗时/卡点/优化方案
/cso 安全专家 OWASP Top 10 + STRIDE 威胁建模审计
/careful 安全护栏 危险命令前强制弹出警告
/freeze [目录] 范围锁定 AI 只能修改指定目录,防止乱改

5.7 安装方式

bash 复制代码
git clone --single-branch --depth 1 https://github.com/garrytan/gstack.git ~/.claude/skills/gstack \
  && cd ~/.claude/skills/gstack && ./setup

核心必做 :在项目根目录 CLAUDE.md 中添加 gstack 路由配置,否则装了白装。

5.8 测评小结

评分维度 得分(5 分制) 说明
角色丰富度 ⭐⭐⭐⭐⭐ 23 个角色覆盖全 SDLC,最完整的团队模拟
并行能力 ⭐⭐⭐⭐⭐ 五层架构 + 多窗口并发 + 常驻浏览器,并行之王
决策深度 ⭐⭐⭐⭐⭐ CEO/架构师/安全专家多视角评审,决策质量最高
Token 消耗 ⭐⭐ 全量使用时 Token 消耗巨大,需按需启用
易用性 ⭐⭐⭐ 28+ 命令学习成本较高,但核心 5 命令覆盖 80% 场景

六、四维横向测评

6.1 核心定位对比

维度 Agent Skills Superpowers GSD gstack
本质 能力协议标准 工程纪律框架 上下文编排框架 角色驱动工作流
解决什么 "能力如何封装" "代码如何写对" "长项目如何不腐烂" "方向如何选对"
抽象层级 基础协议层 执行层 编排层 决策层
给你什么 标准与规范 纪律与护栏 流程与状态 角色与视角

6.2 功能矩阵

功能 Agent Skills Superpowers GSD gstack
TDD 强制 - ✅(QA 阶段)
代码审查 - ✅(双评审) ✅(/review)
上下文管理 ✅(渐进披露) ✅(核心创新)
并行执行 - ✅(子代理) ✅(子代理) ✅(多窗口)
浏览器测试 - ✅(常驻 Chromium)
角色模拟 - ✅(23 角色)
跨会话持久化 ✅(文件系统) ✅(.planning/)
跨平台兼容 27+ 平台 5+ 运行时 15+ 运行时 4+ 运行时
安全审计 - ✅(/cso)
一键部署 - ✅(/ship)

6.3 量化评分总表

评分维度 Agent Skills Superpowers GSD gstack
工程纪律 3 5 3 4
上下文管理 5 2 5 2
并行能力 3 4 4 5
决策深度 2 2 3 5
易用性 3 4 3 3
跨平台兼容 5 3 5 2
生态规模 4 5 4 3
Token 效率 4 3 4 2
综合 3.75 3.5 3.88 3.25

⚠️ 综合分仅作参考,各框架定位不同,不应简单比大小。

6.4 适用场景矩阵

场景 推荐框架 原因
0→1 快速原型 Superpowers 流程门控适中,TDD 保证基本质量
1→10 长期迭代 GSD 上下文不腐烂,跨会话持久化
需求模糊需决策 gstack 多角色评审,方向对了再动手
代码质量要求极高 Superpowers + gstack 纪律 + 审查双保险
多人协作大项目 GSD + gstack 上下文管理 + 角色分工
小修小补 Superpowers(轻量模式) 不要启动完整流程

七、混合使用策略:三驾马车的组合拳

7.1 核心原则:三者互补而非互斥

arduino 复制代码
gstack(决策层)→ GSD(上下文层)→ Superpowers(执行层)→ gstack(验收层)
   "做什么"         "如何组织"         "如何正确做"         "质量把关"
单独使用的短板 组合后解决
Superpowers:需求模糊时流程冗余 gstack 先做决策,再交 Superpowers 执行
gstack:纯执行环节薄弱,Token 消耗大 Superpowers 接管执行,gstack 只做验收
GSD:不产生代码,必须搭配执行框架 Superpowers 执行 + gstack 验收

7.2 推荐整合工作流

bash 复制代码
┌──────────────────────────────────────────────────────┐
│  Phase 1:启动与决策(gstack)                        │
│  /office-hours → /plan-ceo-review → /plan-eng-review │
│  → /plan-design-review                               │
│  产出:设计文档 + 架构方案 + 接口契约                 │
├──────────────────────────────────────────────────────┤
│  Phase 2:规划与锁定(GSD)                          │
│  /gsd-new-project → /gsd-plan-phase                  │
│  产出:PROJECT.md + ROADMAP.md + STATE.md            │
├──────────────────────────────────────────────────────┤
│  Phase 3:执行与落地(Superpowers)                   │
│  /superpowers:write-plan → /superpowers:execute-plan  │
│  产出:TDD 微任务 + 子代理并发执行 + 双 Review       │
├──────────────────────────────────────────────────────┤
│  Phase 4:验收与复盘(gstack)                       │
│  /review → /cso → /qa → /ship → /retro              │
│  产出:代码审查 + 安全审计 + E2E 测试 + 一键发布     │
└──────────────────────────────────────────────────────┘

7.3 避免混乱的四个关键原则

  1. 明确职责边界:不要让 Superpowers 做决策,不要让 gstack 写代码
  2. 按需启用:小任务不要启动完整流程,直接用 Superpowers 或 GSD 快速模式
  3. 精简技能控制 Token:执行某阶段时,手动关闭不需要的其他技能元信息
  4. 保持人工决策:AI 给建议,最终决定权在你手中

八、选型决策树

bash 复制代码
你的项目处于什么阶段?
│
├─ 0→1(从零开始)
│  ├─ 需求清晰?→ Superpowers(TDD 流程保证质量)
│  └─ 需求模糊?→ gstack /office-hours 先决策,再 Superpowers 执行
│
├─ 1→10(已有项目,持续迭代)
│  ├─ 单人开发?→ GSD(上下文不腐烂)+ Superpowers(执行纪律)
│  └─ 多人协作?→ GSD + gstack(角色分工 + 上下文管理)
│
├─ 10→100(大型项目/企业级)
│  └─ gstack(全角色覆盖)+ GSD(跨会话状态)+ Superpowers(代码质量)
│
└─ 小修小补/脚本工具
   └─ Superpowers 轻量模式 或 直接 Claude Code

九、结语

2026 年的 AI 编程,拼的不再是你能手写多少行代码,而是你能不能用好 AI 工具,搭建一套属于自己的工程化流程

四者的关系可以浓缩为一句话:

Agent Skills 是土壤,Superpowers 是犁铧,GSD 是灌溉系统,gstack 是农艺师。

  • Agent Skills 定义了能力如何封装与发现------它是所有框架赖以生存的底层协议
  • Superpowers 确保代码写得对------工程纪律的铁律执行者
  • GSD 确保长项目不腐烂------上下文治理的编排引擎
  • gstack 确保方向选得对------虚拟工程团队的角色驱动工作流

单独使用任何一个都有短板,但将它们像乐高积木一样组合起来,你一个人,真的能顶得上一个 20 人的专业研发团队。

别再把 Claude Code 当聊天框用了。


本文基于 2026 年 6 月的公开资料撰写,框架迭代迅速,建议关注各项目 GitHub 仓库获取最新动态。

参考项目:

相关推荐
一切皆是因缘际会2 小时前
存算一体芯片软件双模式:单字符驱动网络(普通CPU也能跑)
人工智能·物联网·ai·系统架构·架构设计·发布订阅·存算一体
字节逆旅2 小时前
Claude Code Router 接入过程的爬坑记录
人工智能·claude
江畔柳前堤2 小时前
github实战指南01-账号配置与 SSH 密钥
运维·人工智能·深度学习·ssh·github·pyqt·信号处理
excel2 小时前
JavaScript 字符串与模板字面量:从表象到本质理解
前端
workflower3 小时前
使用大语言模型处理用户需求
大数据·人工智能·设计模式·重构·动态规划
京东云开发者3 小时前
当AI成为导演-如何用AI创作动漫短剧
前端
李白的天不白3 小时前
使用 SmartAdmin 进行前后端开发
java·前端
乘风gg4 小时前
🤡PUA AI Coding 工具 的 10 条终极语录
前端·ai编程·claude