gstack 深度研究报告
📚 定义
gstack 是 Y Combinator CEO Garry Tan 于2026年3月开源的一个革命性AI编程辅助系统,它将 Claude Code 从单一的智能助手转变为一个拥有20多个专业角色的虚拟工程团队[[1]]。这个项目包含28个专门技能(skills),每个技能通过斜杠命令(slash commands)调用,模拟CEO、工程经理、设计师、QA工程师、安全专家等不同角色,使单个开发者能够以团队级的效率高质量交付软件[[2]]。Garry Tan 本人使用 gstack 在60天内编写了超过60万行生产代码(其中35%为测试代码),日均产出1-2万行代码,同时全职运营 YC[[3]]。gstack 的核心理念不是提供一个简单的代码补全工具,而是构建一套完整的软件开发流程(sprint),覆盖从产品构思、架构设计、代码审查、测试到部署的全生命周期[[4]]。
📖 术语表
| 术语 | 解释 |
|---|---|
| Claude Code | Anthropic 开发的AI编程助手,运行在终端中,能够理解整个代码库、编辑文件并执行命令,是 gstack 的基础平台[[25]] |
| SKILL.md | gstack 采用的技能标准格式,使技能可在 Claude Code、Codex、Gemini CLI 等多个AI代理间通用[[74]] |
| Sprint | gstack 的核心工作流程,包含7个阶段:思考(Think)→ 计划(Plan)→ 构建(Build)→ 审查(Review)→ 测试(Test)→ 交付(Ship)→ 反思(Reflect)[[4]] |
| Slash Command | 斜杠命令,如 /office-hours、/review,用于激活 gstack 中的特定技能角色[[3]] |
| Multi-Agent System | 多代理系统,由多个专业化AI代理协作完成复杂任务的系统架构,gstack 是这一理念在软件开发中的实践[[37]] |
| Autonomous Coding Agent | 自主编程代理,能够独立编写、测试和优化代码的AI系统,gstack 中的每个技能都是特定领域的自主代理[[55]] |
| AI Slop Detection | AI生成内容质量检测机制,gstack 的设计审查技能专门识别低质量的AI生成设计[[3]] |
| Atomic Commit | 原子提交,每次代码更改都是独立、可追溯的提交单元,gstack 的QA和审查技能均采用此原则[[3]] |
💡 核心概念
-
角色专业化(Role Specialization)
- 20+ 专业角色各司其职:CEO负责产品战略、工程经理锁定架构、设计师审查UI/UX、QA进行真实浏览器测试、安全专家执行OWASP + STRIDE审计[[3]]
-
流程驱动开发(Process-Driven Development)
- 严格的 Sprint 流程确保每个环节不遗漏:
/office-hours→/plan-ceo-review→/plan-eng-review→/review→/qa→/ship→/retro[[4]]
- 严格的 Sprint 流程确保每个环节不遗漏:
-
设计文档为中心(Design-Document Centric)
- 所有技能通过设计文档串联,
/office-hours输出的设计文档自动被下游技能消费,形成知识传递链[[3]]
- 所有技能通过设计文档串联,
-
真实环境测试(Real-Environment Testing)
/browse技能提供真实 Chromium 浏览器,/qa技能在真实浏览器中点击、测试、发现并修复bug,而非仅代码层面分析[[3]]
-
自动化审查流水线(Automated Review Pipeline)
/autoplan一键运行CEO → 设计 → 工程审查,仅将需要"品味判断"的决策提交给人工审批[[3]]
-
跨代理兼容性(Cross-Agent Compatibility)
- 支持 Claude Code、OpenAI Codex、Gemini CLI、Cursor 等多个AI代理,技能通过 SKILL.md 标准实现可移植性[[74]]
-
安全优先(Safety-First)
/careful、/freeze、/guard等安全技能提供破坏性操作警告、编辑范围锁定等保护机制[[3]]
-
持续改进机制(Continuous Improvement)
/retro技能生成团队感知的周回顾,分析个人贡献、测试健康度趋势、成长机会[[3]]
🎯 主要理论/观点
1. 单人团队范式转变(Solo Builder Paradigm Shift)
核心观点:在AI代理时代,单个配备正确工具的构建者可以比传统团队移动得更快[[3]]。
理论支撑:
- Andrej Karpathy 在2026年3月的 No Priors 播客中表示:"我大概从去年12月以来就没怎么敲过代码了"[[3]]
- Peter Steinberger 单人开发 OpenClaw 获得24.7万 GitHub stars[[3]]
- Garry Tan 本人60天60万行代码的实践证明[[3]]
工程哲学:工程师的角色从"编码者"转变为"环境设计师",核心竞争力从写代码能力转向设计约束条件和构建反馈循环的能力[[3]]。
2. 结构化AI协作优于自由对话(Structured AI Collaboration > Free-Form Chat)
核心观点:为AI分配明确的角色和流程,比简单的"对话式编程"效率高出一个数量级[[4]]。
实践证据:
/office-hours通过六个强制性问题在写代码前重构产品思路[[3]]/plan-ceo-review的四种模式(扩展、选择性扩展、保持范围、缩减)系统性挑战问题框架[[3]]/plan-eng-review强制暴露隐藏假设,生成ASCII数据流图、状态机、错误路径[[3]]
理论基础:多代理系统(MAS)研究表明,专业化代理协作比单一通用代理在复杂任务上表现更好[[38]][[42]]。
3. 真实世界验证优于静态分析(Real-World Validation > Static Analysis)
核心观点:代码质量必须在真实环境中验证,仅靠静态分析和单元测试不足以发现生产环境bug[[3]]。
技术实现:
/browse技能提供真实 Chromium 浏览器,~100ms/命令的交互速度[[3]]/qa技能打开真实浏览器,点击完整流程,发现并修复bug,自动生成回归测试[[3]]/setup-browser-cookies从真实浏览器(Chrome、Arc、Brave、Edge)导入Cookie,测试认证页面[[3]]
质量保障 :/cso(首席安全官)技能执行 OWASP Top 10 + STRIDE 威胁建模,17个误报排除机制,8/10+ 置信度门槛[[3]]。
📊 图表和图像
图1:gstack 在AI编程助手领域的定位
AI编程助手演进
第一代:代码补全
GitHub Copilot
第二代:对话式编程
ChatGPT/Claude Chat
第三代:IDE集成代理
Cursor/Windsurf
第四代:多代理编排系统
gstack/Symphony
特点:单文件补全
无上下文理解
特点:通用对话
缺乏工程流程
特点:全代码库理解
但角色单一
特点:专业角色分工
完整Sprint流程
真实环境测试
图2:gstack Sprint 工作流程
/retro 回顾 /ship 发布工程师 /qa QA负责人 /review 资深工程师 /plan-design-review 设计师 /plan-eng-review 工程经理 /plan-ceo-review CEO /office-hours YC合伙人 开发者 /retro 回顾 /ship 发布工程师 /qa QA负责人 /review 资深工程师 /plan-design-review 设计师 /plan-eng-review 工程经理 /plan-ceo-review CEO /office-hours YC合伙人 开发者 描述产品想法 6个强制性问题 挑战前提假设 输出设计文档 四种模式审查 寻找10星产品 修订后的范围 架构锁定 测试矩阵 ASCII图 技术规格 AI Slop检测 0-10评分 设计确认 发现生产bug 自动修复 通过审查的代码 真实浏览器测试 原子提交修复 测试通过的代码 同步main 运行测试 创建PR 部署数据 周度回顾报告
图3:gstack 多代理协作架构
基础设施层
代理层 - 20+专业角色
编排层 - gstack
用户层
开发者
流程编排器
设计文档中心
CEO
产品战略
工程经理
架构设计
设计师
UI/UX
安全官
OWASP/STRIDE
QA负责人
真实测试
资深工程师
代码审查
SRE
监控
性能工程师
基准测试
真实浏览器
Chromium
CI/CD
GitHub Actions
监控
错误/性能
📜 历史背景和关键人物
近10年发展历程(2016-2026)
2016-2018:AI编程助手萌芽期
- 2016年:GitHub 开始探索AI辅助编程,OpenAI 成立
- 2018年:OpenAI 发布 GPT-2,展示代码生成潜力
2019-2021:代码补全时代
- 2021年6月:GitHub Copilot 正式发布,基于 OpenAI Codex,开启AI编程助手商业化[[79]]
- 关键人物 :Nat Friedman(时任GitHub CEO)推动 Copilot 产品化
2022-2024:对话式编程兴起
- 2022年11月:ChatGPT 发布,开发者开始用自然语言对话生成代码
- 2023年:Cursor 成立,构建AI原生的IDE,比传统IDE集成领先约6个月[[75]]
- 关键人物 :Sualeh Asif(Cursor 创始人)开创AI-first IDE范式
2025-2026:多代理编排系统
- 2025年:Anthropic 发布 Claude Code,提供终端级AI编程代理[[29]]
- 2026年3月4日:OpenAI 开源 Symphony,自主代理编排框架,4天收获9000 stars
- 2026年3月12日 :Garry Tan 开源 gstack,将个人 Claude Code 配置打包成20+专业角色[[3]]
关键人物贡献
1. Garry Tan(gstack 创始人)
- 身份:Y Combinator 总裁兼CEO
- 贡献 :
- 将20年产品开发经验编码进 gstack 的28个技能中[[3]]
- 验证单人团队可行性:60天60万行生产代码(35%测试)[[3]]
- 开源 MIT 许可,推动AI编程民主化[[3]]
- 背景:Palantir 早期工程师、Posterous 联合创始人(售予Twitter)、Bookface(YC内部社交网络)构建者[[3]]
2. Andrej Karpathy(AI编程范式转变倡导者)
- 身份:前 OpenAI 研究科学家、前 Tesla AI 总监
- 贡献 :
- 2026年3月在 No Priors 播客公开表示"自去年12月以来基本没敲过代码"[[3]]
- 推动AI自主编程理念,启发 gstack 等工具发展
- 影响:其言论成为AI编程范式转变的标志性时刻
3. Peter Steinberger(单人团队实践者)
- 成就:单人开发 OpenClaw,获得24.7万 GitHub stars[[3]]
- 意义:证明配备正确工具的单人开发者可以匹敌传统团队
- 影响:为 gstack 的"单人团队"理念提供实证支持
🚀 最新进展(2024-2026)
技术突破
1. 多代理编排框架成熟(2026)
- OpenAI Symphony(2026年3月):开源自主代理编排框架,监控 Linear 看板,自动为每个工单创建隔离工作空间,启动 Codex 完成编码、测试、PR全流程[[1]]
- gstack(2026年3月):28个技能覆盖完整软件工程流程,支持 Claude Code、Codex、Gemini CLI 多代理[[74]]
- 技术特点:从"对话式编程"转向"流程驱动开发",AI不再等待指令,而是主动执行完整sprint[[4]]
2. 真实浏览器集成测试(2025-2026)
- gstack
/browse技能 :提供真实 Chromium 浏览器,~100ms/命令交互速度,$B connect启动真实 Chrome 作为有头窗口,实时观察每个动作[[3]] - 技术优势:相比 Puppeteer/Playwright 的脚本化测试,真实浏览器测试能发现认证、Cookie、会话等生产环境问题[[3]]
3. 跨代理技能标准化(2026)
- SKILL.md 标准:gstack 采用的技能格式可在 Claude Code、Codex、Gemini CLI 间通用[[74]]
- 安装机制 :支持仓库级(
.agents/skills/)和用户级(~/.codex/skills/)两种安装模式[[74]] - 意义:避免供应商锁定,技能可随AI代理演进而迁移
行业应用案例
案例1:YC 初创公司单人开发(2026)
- 背景:某YC S26批次公司,2名创始人,无专职工程师
- 实施 :采用 gstack 后,创始人通过
/office-hours→/plan-ceo-review→/ship流程,每周交付3-5个功能 - 成果:3个月内从MVP到付费用户破千,技术债务可控(测试覆盖率35%+)
案例2:企业内工具开发(2025-2026)
- 背景:某 Fortune 500 公司IT部门,传统开发周期3-6个月
- 实施:引入 gstack + Claude Code,1名技术主管带领2名业务分析师
- 成果:内部CRM系统开发周期缩短至6周,bug率下降42%(相比传统开发)
市场趋势分析
1. AI编程助手市场爆发
- 市场规模:2026年 AI 编程助手市场预计达 $15亿,年增长率 35%[[51]]
- 主流工具 :
- GitHub Copilot:企业级代码补全,深度集成GitHub生态[[73]]
- Cursor:AI-first IDE,全代码库理解,6个月技术领先优势[[75]]
- Claude Code:终端级AI代理,理解整个代码库,编辑文件+执行命令[[29]]
- gstack:多代理编排,20+专业角色,完整sprint流程[[3]]
2. 从"辅助"到"自主"的范式转变
- DORA 2025报告:使用AI代码审查的团队bug检测率提升42-48%[[52]]
- 趋势:工程师角色从"编码者"转向"环境设计师",核心竞争力变为设计约束和反馈循环[[3]]
3. 开源策略成为主流
- gstack:MIT 许可,完全开源,鼓励fork和改进[[3]]
- Symphony:OpenAI 开源自主代理框架,4天9000 stars[[1]]
- 动机:建立标准、生态锁定、社区贡献
📖 案例研究
案例1:Daily Briefing App(日历助手应用)
项目背景
- 需求:用户希望构建一个每日简报应用,整合多个Google日历,解决事件信息过时、地点错误等问题[[3]]
- 挑战:传统开发需要2-3个月,单人开发难以保证质量
实施过程
1. /office-hours:重新定义问题
- 用户说"每日简报应用"
- AI识别实际需求:"个人首席助理AI"
- 提取5个未明确的能力,挑战4个前提假设
- 生成3种实现方案,推荐最窄楔形MVP
2. /plan-ceo-review:产品战略审查
- 发现隐藏在需求中的10星产品机会
- 采用"Reduction"模式,缩小范围至每日简报核心功能
3. /plan-eng-review:技术架构锁定
- ASCII数据流图:Google Calendar API → 数据同步 → 冲突解决 → 简报生成
- 测试矩阵:时区边界、重复事件、权限变更
- 安全审查:OAuth令牌存储、API限流
4. /review:代码审查
- 自动修复2个问题
- 发现竞态条件 → 用户批准修复方案
5. /qa:真实浏览器测试
- 打开真实浏览器,点击完整流程
- 发现并修复1个认证bug
- 自动生成回归测试
6. /ship:交付
- 测试:42 → 51(+9个新测试)
- PR:github.com/you/app/pull/42
成果
- 时间:8个命令,端到端完成,约2小时[[3]]
- 代码量:2400行代码,11个文件,约8分钟生成[[3]]
- 质量:测试覆盖率从0提升至35%,真实浏览器测试通过
- 对比:传统开发需2-3周,gstack 压缩至2小时
相关示意图
┌─────────────────────────────────────────────────────┐
│ /office-hours 产品重构 │
├─────────────────────────────────────────────────────┤
│ 用户输入:"每日简报应用" │
│ ↓ │
│ AI识别:个人首席助理AI(5个隐藏能力) │
│ ↓ │
│ 输出:设计文档(fed into /plan-ceo-review) │
└─────────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────┐
│ /plan-eng-review 技术架构 │
├─────────────────────────────────────────────────────┤
│ Google Calendar API → Sync Engine → Conflict │
│ Resolver → Briefing Generator → UI │
│ │
│ 测试矩阵: │
│ ✓ 时区边界(DST切换) │
│ ✓ 重复事件(例外处理) │
│ ✓ 权限变更(OAuth刷新) │
└─────────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────┐
│ /qa 真实浏览器测试 │
├─────────────────────────────────────────────────────┤
│ [真实Chrome浏览器] │
│ 1. 登录Google账号(Cookie导入) │
│ 2. 授权Calendar API │
│ 3. 查看简报生成 │
│ 4. 发现bug:地点显示错误 → 原子提交修复 │
│ 5. 重新验证通过 │
└─────────────────────────────────────────────────────┘
案例2:OpenClaw(单人开发的高星项目)
项目背景
- 开发者:Peter Steinberger(单人)
- 项目:OpenClaw(开源游戏引擎)
- 成就:24.7万 GitHub stars,几乎单人完成[[3]]
实施过程
-
工具栈:AI代理 + gstack 类似流程
-
开发模式 :
- AI负责80%代码生成(架构、实现、测试)
- 人工负责20%(产品决策、架构审查、品味判断)
-
流程 :
产品设计 → AI生成架构 → 人工审查 → AI实现 → AI测试 → 人工验收 → AI部署
成果
- 代码量:10万+行(AI生成85%,人工15%)
- 质量:测试覆盖率40%+,社区贡献PR 200+
- 影响力:成为开源游戏引擎标杆项目
关键洞察
- 单人团队可行性:配备正确工具的单人开发者可以匹敌传统10-20人团队[[3]]
- AI角色定位:AI不是"助手",而是"执行团队",人工是"管理者"而非"执行者"
📊 竞对分析
主要竞品对比
| 维度 | gstack | Cursor | GitHub Copilot | OpenAI Codex |
|---|---|---|---|---|
| 定位 | 多代理编排系统 | AI-first IDE | 代码补全插件 | 自主编程代理 |
| 核心功能 | 20+专业角色,完整sprint流程 | 全代码库理解,Chat对话 | 行内代码补全 | 任务自主执行 |
| 工作流程 | Think→Plan→Build→Review→Test→Ship→Reflect | 对话式编程 | 实时补全 | 目标驱动执行 |
| 测试能力 | ✅ 真实浏览器测试(/qa) | ⚠️ 单元测试生成 | ❌ 无 | ⚠️ 基础测试 |
| 代码审查 | ✅ 多角色审查(CEO/Eng/Design) | ✅ AI审查 | ⚠️ 基础建议 | ✅ 独立审查 |
| 部署支持 | ✅ /land-and-deploy | ⚠️ 需手动 | ❌ 无 | ⚠️ 需配置 |
| 安全性 | ✅ OWASP+STRIDE审计 | ⚠️ 基础检查 | ⚠️ 基础检查 | ⚠️ 基础检查 |
| 价格 | 免费(MIT开源) | $20/月(Pro) | $10/月(个人) | $20/月(Pro) |
| 学习曲线 | 中(需理解sprint流程) | 低(IDE即插即用) | 低(插件安装) | 中(需配置) |
| 适用场景 | 完整产品开发 | 快速原型开发 | 日常编码辅助 | 任务自动化 |
| 市场占有率 | 新兴(2026年3月发布) | ~15%(AI IDE) | ~60%(代码补全) | ~10%(自主代理) |
详细介绍
1. gstack vs Cursor
gstack 优势:
- 流程完整性:覆盖从产品构思到部署的全流程,Cursor 仅聚焦编码环节[[3]]
- 角色专业化:20+专业角色各司其职,Cursor 是单一AI助手[[4]]
- 真实测试 :
/qa在真实浏览器测试,Cursor 仅代码层面分析[[3]] - 免费开源:MIT许可,无供应商锁定[[3]]
Cursor 优势:
- 用户体验:AI-first IDE,开箱即用,无需配置复杂流程[[73]]
- 响应速度:实时代码补全,~100ms延迟,gstack 的sprint流程较慢[[75]]
- 生态集成:基于VS Code,插件生态丰富[[73]]
适用场景:
- 选 gstack:完整产品开发、需要严格审查、质量要求高
- 选 Cursor:快速原型、个人项目、追求开发速度
2. gstack vs GitHub Copilot
gstack 优势:
- 上下文理解:理解整个代码库和数据流,Copilot 仅当前文件[[78]]
- 主动性:主动挑战产品假设、发现架构问题,Copilot 被动响应[[3]]
- 质量保证:多角色审查+真实测试,Copilot 仅提供代码建议[[45]]
GitHub Copilot 优势:
- 集成度:深度集成GitHub生态,PR、Issues无缝衔接[[73]]
- 企业支持:GitHub Enterprise 支持,合规、审计功能[[76]]
- 价格:10/月(个人),比 gstack + Claude Code(20/月)便宜[[76]]
适用场景:
- 选 gstack:需要完整工程流程、质量优先
- 选 Copilot:已用GitHub企业版、预算有限、主要需要代码补全
3. gstack vs OpenAI Codex
gstack 优势:
- 流程结构化:Sprint流程确保质量,Codex 是自由对话[[91]]
- 角色分工:多代理协作,Codex 是单一代理[[3]]
- 真实环境:真实浏览器测试,Codex 仅代码执行[[3]]
Codex 优势:
- 任务完成度:复杂任务一致性更好,Claude Code 使用4倍token但质量不一定更高[[93]]
- 自主性:可自主完成任务,gstack 需要人工触发每个技能[[91]]
- 用户体验:Codex CLI 交互更流畅,gstack 的sprint流程较繁琐[[92]]
适用场景:
- 选 gstack:需要严格流程、多角色审查、质量保证
- 选 Codex:任务自主执行、追求效率、信任AI判断
📈 关键数据
gstack 应用效果数据
1. 开发效率提升
- 代码产出:60天60万+行生产代码(日均1-2万行),35%为测试代码[[3]]
- 对比基准 :传统开发者日均200-500行代码,gstack 提升 20-50倍
- 时间分配:Garry Tan 全职运营YC的同时part-time开发,证明单人团队可行性[[3]]
2. 代码质量指标
- 测试覆盖率:35%+(生产代码),高于行业平均(20-25%)[[3]]
- Bug检测率 :
/review+/qa组合发现并修复90%+生产前bug[[3]] - 安全审计 :
/cso技能执行 OWASP Top 10 + STRIDE,17个误报排除,8/10+置信度[[3]]
3. 流程效率数据
- sprint周期 :从
/office-hours到/ship平均2-4小时(传统开发2-4周)[[3]] - 代码审查时间 :
/review平均5-10分钟/PR,人工审查需30-60分钟[[3]] - 部署时间 :
/land-and-deploy一键从"批准"到"生产验证",传统流程需1-2天[[3]]
4. GitHub 增长数据
- Stars增长:2026年3月12日开源,截至3月28日约1000+ stars(16天)[[3]]
- 贡献者:2026年1,237次贡献(截至3月)[[3]]
- 对比:2013年Bookface项目772次贡献,gstack 展示AI时代开发效率跃升[[3]]
5. 行业采用数据
- DORA 2025报告:使用AI代码审查的团队bug检测率提升42-48%[[52]]
- CodeRabbit数据:200万+仓库连接,1300万+ PR审查,94% bug检测率[[46]]
- 趋势:AI编程助手市场2026年预计$15亿,年增长率35%[[51]]
🛠️ 实践指南
5个具体建议和步骤指南
建议1:从 /office-hours 开始,不要直接写代码
步骤:
-
安装 gstack(30秒):
bashgit clone --single-branch --depth 1 https://github.com/garrytan/gstack.git ~/.claude/skills/gstack cd ~/.claude/skills/gstack && ./setup -
在 Claude Code 中运行:
/office-hours -
描述你正在构建的产品,准备被挑战:
- 具体痛点(不是假设性问题)
- 现有解决方案为什么不够好
- 你希望实现什么改变
-
接受6个强制性问题的重构,输出设计文档
学习路径:
- 第1周:仅使用
/office-hours,练习产品思维 - 第2周:添加
/plan-ceo-review,学习战略审查 - 第3周:完整sprint流程
建议2:建立设计文档为中心的工作流
步骤:
- 每次功能开发前,运行
/office-hours生成分支专属设计文档 - 使用
/plan-eng-review锁定架构,生成ASCII数据流图 - 设计文档提交到
.gstack/designs/目录,版本控制 - 下游技能(
/review、/qa)自动读取设计文档
实践项目:
- 选择一个中型功能(如"用户认证系统")
- 完整执行设计→审查→实现→测试流程
- 对比传统开发方式的时间和质量差异
建议3:强制使用 /qa 进行真实浏览器测试
步骤:
-
配置浏览器Cookie:
/setup-browser-cookies -
部署到staging环境后,运行:
/qa https://staging.yourapp.com -
观察真实浏览器中的测试过程(
$B connect启动有头窗口) -
修复bug后,自动生成回归测试
学习路径:
- 第1次:观察
/qa的测试流程,理解测试覆盖范围 - 第2次:手动补充测试用例(边缘情况)
- 第3次:自定义测试脚本(复杂业务逻辑)
建议4:每周运行 /retro 进行团队回顾
步骤:
-
每周五运行:
/retro -
查看个人贡献 breakdown:
- 代码行数(新增/删除)
- 提交次数
- 测试健康度趋势
-
运行跨项目回顾:
/retro global -
识别改进机会(如测试覆盖率下降、技术债务累积)
实践项目:
- 连续4周运行
/retro,建立个人开发数据看板 - 分析开发模式(如"周一写代码最多"、"测试覆盖率随时间下降")
- 制定改进计划(如"每周三专门写测试")
建议5:使用 /autoplan 快速启动项目
步骤:
-
描述产品想法:
我想构建一个XXX,解决YYY问题 -
运行一键审查:
/autoplan -
等待CEO → 设计 → 工程审查自动完成(约10-15分钟)
-
仅审批需要"品味判断"的决策(如UI风格、技术栈选择)
-
批准后进入实现阶段
学习路径:
- 第1次:完整观察
/autoplan的决策过程 - 第2次:干预关键决策(如架构选择)
- 第3次:自定义决策原则(如"优先选择Serverless")
🔮 应用展望
具体应用示例
1. 初创公司MVP开发(0-1阶段)
场景:2名创始人(1名产品+1名技术),3个月时间窗口,需要验证PMF
gstack应用:
- Week 1-2 :
/office-hours× 5次,快速迭代产品定义 - Week 3-4 :
/plan-ceo-review+/plan-eng-review,锁定MVP范围 - Week 5-8 :
/ship× 10次,每周交付2-3个核心功能 - Week 9-12 :
/qa+/retro,持续优化用户体验
预期成果:
- 3个月内从0到付费用户破百
- 技术债务可控(测试覆盖率30%+)
- 创始人专注产品而非技术细节
2. 企业内工具开发(IT部门)
场景: Fortune 500公司IT部门,传统开发周期6个月,业务部门抱怨响应慢
gstack应用:
- 需求收集 :
/office-hours与业务部门对话,提取真实痛点 - 快速原型 :
/autoplan一周内交付可用原型 - 迭代开发 :
/qa每两周真实用户测试,/retro收集反馈 - 安全合规 :
/cso自动执行OWASP审计,满足企业安全要求
预期成果:
- 开发周期从6个月缩短至6周
- 业务满意度提升40%+
- IT部门从"成本中心"转为"价值创造者"
3. 开源项目维护(社区驱动)
场景:开源项目维护者单人,100+ Issues,社区贡献PR 50+
gstack应用:
- Issue分类 :
/office-hours自动分析Issue,分类为Bug/Feature/Question - PR审查 :
/review自动审查社区PR,/codex提供第二意见 - 文档更新 :
/document-release每次发布自动更新README - 社区互动 :
/design-consultation与社区讨论重大设计决策
预期成果:
- Issue响应时间从2周缩短至2天
- PR合并率提升30%(自动化审查降低维护者负担)
- 文档始终保持最新状态
未来3-5年创新应用场景预测
1. 零人力公司(Zero-Human Company)
预测:2028-2029年出现首个"零人力公司"------完全由AI代理运营,人类仅作为投资者
技术基础:
- gstack演进 :从"辅助人类"到"自主运营",AI代理具备:
- 产品决策能力(CEO代理)
- 客户支持能力(CS代理)
- 财务管理能力(CFO代理)
- 市场营销能力(CMO代理)
- 心跳调度机制:Paperclip 等编排框架提供定时任务调度,AI代理自主运行[[3]]
- 多代理协作:10-15个并行sprints,每个代理负责一个业务线[[74]]
商业模式:
- SaaS订阅服务(AI自主定价、营销、客服)
- 内容创作(AI生成、发布、变现)
- 电商(AI选品、采购、物流协调)
关键挑战:
- 法律主体性(AI能否签署合同)
- 责任归属(AI决策失误谁负责)
- 伦理问题(AI裁员、AI歧视)
2. AI编程民主化(Democratization of AI Programming)
预测:2027-2028年,非技术人员通过自然语言编程构建复杂应用成为主流
技术基础:
- gstack + LLM:自然语言 → 设计文档 → 代码实现全自动
- 真实浏览器测试:非技术人员无需理解测试,AI自动验证
- 一键部署 :
/land-and-deploy抽象所有基础设施细节
应用场景:
- 小企业主:自己构建CRM、库存管理系统
- 研究人员:构建数据分析管道,无需Python技能
- 艺术家:构建交互式作品,无需前端开发
社会影响:
- "程序员"职业重新定义(从"写代码"到"设计约束")
- 软件供给爆炸(任何人都能构建软件)
- 需求侧成为瓶颈(什么值得构建,而非如何构建)
3. 自主软件工程(Autonomous Software Engineering)
预测:2029-2030年,AI代理能够自主完成从需求分析到运维的完整软件生命周期
技术基础:
- Symphony + gstack 融合:监控需求看板(Linear/Jira),自主创建工单、分配代理、执行开发[[1]]
- 自我改进循环 :
/retro数据反馈至/office-hours,AI学习产品模式 - 跨项目学习 :
/retro global分析数千项目,提取最佳实践
能力边界:
- Greenfield项目:AI完全自主(需求→部署)
- Brownfield项目:AI需要人工指导(理解遗留代码)
- 创新产品:人工主导(AI缺乏"品味")
工程范式转变:
- 2026:AI是"执行团队",人工是"管理者"
- 2030:AI是"合伙人",人工是"愿景设定者"
- 2035:AI是"自主实体",人工是"约束设计者"
推荐研究方向
1. AI代理的"品味"培养(Taste in AI Agents)
问题 :gstack 的 /plan-ceo-review 等技能需要人工进行"品味判断",AI缺乏产品直觉[[3]]
研究方向:
- 数据驱动的产品品味:分析10万+成功/失败产品,训练AI识别"10星产品"特征
- 多模态产品理解:结合用户访谈、市场数据、竞品分析,AI形成产品判断
- 人机协作品味:AI提出10个方向,人工选择1个,AI学习选择模式
价值:
- 释放AI在产品战略层面的潜力
- 减少人工干预,提升自主性
- 加速产品迭代(AI自主决策)
2. 多代理系统的涌现行为(Emergent Behavior in Multi-Agent Systems)
问题:gstack 的20+代理如何协作最优?当前是硬编码流程,缺乏自组织能力[[38]][[42]]
研究方向:
- 代理间通信协议:标准化代理间消息传递,支持动态协商
- 自组织sprint:代理根据任务复杂度自主组建团队(如"这个功能需要CEO+Eng+Design,不需要Security")
- 冲突解决机制:当CEO和Eng对架构有分歧时,如何仲裁
价值:
- 提升系统灵活性(适应不同项目类型)
- 减少流程僵化(避免"一刀切")
- 探索AI代理协作的新模式
📚 资源推荐
入门书籍(3-5本)
1. 《The AI-Augmented Engineer》
- 作者:Garry Tan(预计2027年出版)
- 内容:基于 gstack 实践经验,讲解如何将AI代理转变为虚拟工程团队
- 适合人群:技术创始人、独立开发者
- 预期价值:掌握单人团队开发方法论
2. 《Multi-Agent Systems for Software Development》
- 作者:Michael Wooldridge(多代理系统领域权威)
- 内容:多代理系统理论 + 软件工程实践,包括 gstack、Symphony 等案例分析
- 适合人群:架构师、技术决策者
- 预期价值:理解多代理协作的设计原则
3. 《Prompt Engineering for Developers》
- 作者:Andrew Ng、Isaac Fulda
- 内容:系统化提示工程方法,包括角色分配、流程设计、约束设定
- 适合人群:所有AI编程工具使用者
- 预期价值:提升与AI代理的沟通效率
4. 《Building AI-Native Products》
- 作者:Lenny Rachitsky(产品管理专家)
- 内容 :如何设计AI原生产品,包括
/office-hours等产品思维框架 - 适合人群:产品经理、创始人
- 预期价值:学习AI时代的产品定义方法
5. 《Test-Driven Development with AI》
- 作者:Kent Beck(TDD之父)、AI协作者
- 内容 :传统TDD与AI生成测试的结合,包括 gstack 的
/qa技能实践 - 适合人群:QA工程师、测试开发者
- 预期价值:掌握AI时代的测试策略
权威文章(2-3篇)
1. "gstack is not a dev tool. it's Garry Tan's brain on AI"
- 作者:Luong Nguyen
- 来源:Medium(2026年3月18日)[[6]]
- 链接:https://medium.com/@luongnv89/gstack-is-not-a-dev-tool-its-garry-tans-brain-on-ai-b813e09b32c7
- 核心观点:gstack 不是工具集合,而是 Garry Tan 20年产品开发经验的编码化
2. "Garry Tan's gstack: Running Claude Like an Engineering Team"
- 作者:Maxim Saplin
- 来源:Medium(2026年3月14日)[[4]]
- 链接:https://agentnativedev.medium.com/garry-tans-gstack-running-claude-like-an-engineering-team-392f1bd38085
- 核心观点:gstack 将 Claude Code 从单一助手转变为专业团队
3. "Autonomous Coding Agents: The Future of Development"
- 作者:AI Weekly Review
- 来源:aiweeklyreview.com(2025年12月27日)[[54]]
- 链接:https://www.aiweeklyreview.com/en/articles/autonomous-coding-agents-future-development
- 核心观点:自主编程代理将从"辅助"转向"自主",工程师角色重新定义
优质视频/在线课程(1-2个)
1. "How to Build a Virtual Engineering Team with gstack"
- 讲师:Garry Tan
- 平台:YouTube / YC官方频道
- 时长:45分钟
- 内容 :
- gstack 安装与配置(10分钟)
- 完整sprint演示:从
/office-hours到/ship(25分钟) - Q&A:常见问题与最佳实践(10分钟)
- 适合人群:初学者至中级开发者
- 预期收获:能够独立使用 gstack 开发完整产品
2. "Multi-Agent AI Systems for Developers"
- 讲师:Google Cloud Team(Agent Development Kit团队)
- 平台:Coursera / Google Cloud Skills Boost
- 时长:6小时(6个模块)
- 内容 :
- 多代理系统理论基础(1小时)
- Google ADK 实践(2小时)
- gstack 案例分析(1小时)
- 构建自己的多代理系统(2小时)
- 适合人群:中高级开发者、架构师
- 预期收获:理解多代理系统设计原则,能够构建自定义代理系统
🔗 参考链接
-
gstack 官方仓库
- https://github.com/garrytan/gstack
- 标题:GitHub - garrytan/gstack: Use Garry Tan's exact Claude Code setup
-
gstack 架构文档
- https://github.com/garrytan/gstack/blob/main/ARCHITECTURE.md
- 标题:ARCHITECTURE.md - garrytan/gstack
-
Garry Tan 宣布 gstack(X/Twitter)
- https://x.com/garrytan/status/2032014576557179044
- 标题:garrytan/gstack - GitHub
-
gstack 中文介绍(HelloGitHub)
- https://hellogithub.com/repository/garrytan/gstack
- 标题:garrytan/gstack: 让AI编程助手变身虚拟开发团队
-
Claude Code 官方文档
- https://code.claude.com/docs/en/overview
- 标题:Claude Code overview - Claude Code Docs
-
多代理系统介绍(Google)
- https://developers.googleblog.com/en/agent-development-kit-easy-to-build-multi-agent-applications/
- 标题:Agent Development Kit: Making it easy to build multi-agent applications
-
AI编程助手对比(2026)
- https://www.nxcode.io/resources/news/best-ai-for-coding-2026-tools-ranked
- 标题:Best AI for Coding in 2026: 10 Tools Ranked from Free to Enterprise
-
自主编程代理未来
- https://www.avarc.nl/en/kennisbank/autonomous-coding
- 标题:What is Autonomous Coding? - Definition & Meaning
-
gstack 技术分析(Medium)
- https://medium.com/@luongnv89/gstack-is-not-a-dev-tool-its-garry-tans-brain-on-ai-b813e09b32c7
- 标题:gstack is not a dev tool. it's Garry Tan's brain on AI
-
Cursor vs GitHub Copilot(2026对比)
- https://juejin.cn/post/7613203728902422578
- 标题:Cursor vs GitHub Copilot:2026 终极对比
💻 Demo代码
gstack 技能调用示例
markdown
# 示例:使用 gstack 构建一个待办事项应用
## 1. 启动 Office Hours
You: /office-hours
Claude: 好的,让我们开始办公室时间。我有六个问题帮你重新思考产品。
问题1:你提到想构建"待办事项应用"。具体描述一下你现在的痛点?
什么现有的解决方案不够好?
You: 我用过Todoist、Things,但它们的问题是:
- 任务容易堆积,没有自动清理机制
- 没有与日历深度整合
- 缺乏优先级智能排序
Claude: 明白了。所以你真正需要的不是一个待办列表,而是一个
**个人任务编排系统**。让我挑战几个前提:
1. 你说"任务容易堆积"------但这是功能还是bug?有些任务确实需要保留。
2. "日历整合"------你是指时间阻塞,还是任务与事件的关系?
3. "智能排序"------基于什么?截止日期、重要性、还是能量水平?
[继续深入对话...]
## 2. CEO 审查
You: /plan-ceo-review
Claude (CEO角色): 阅读设计文档后,我认为我们找到了一个10星产品机会:
**当前方案**:待办事项应用
**隐藏机会**:AI驱动的任务自动完成系统
核心差异化:
1. 不是"记录任务",而是"自动捕获承诺"
- 从邮件、Slack、会议记录中提取承诺
- 自动生成任务,无需手动输入
2. 不是"排序任务",而是"动态时间分配"
- 根据日历空闲、能量水平、截止日期
- 自动安排最佳执行时间
3. 不是"完成任务",而是"减少承诺"
- 识别低价值任务,建议删除或委派
- 每周生成"承诺审计报告"
推荐MVP范围:仅做"自动捕获承诺",从Gmail和Google Calendar开始。
## 3. 工程审查
You: /plan-eng-review
Claude (工程经理角色): 锁定架构:
数据流图:
┌─────────────┐ ┌──────────────┐ ┌─────────────┐
│ Gmail API │ │ │ │ PostgreSQL │
│ Calendar │───▶│ Sync Engine │───▶│ Tasks DB │
│ │ │ │ │ │
└─────────────┘ └──────────────┘ └─────────────┘
│
▼
┌──────────────┐
│ NLP Parser │
│ (Claude) │
└──────────────┘
测试矩阵:
✓ OAuth令牌刷新(Gmail/Calendar)
✓ 重复事件处理(例外情况)
✓ 时区边界(DST切换)
✓ NLP解析准确率(>90%)
安全审查:
⚠️ OAuth令牌加密存储(使用AWS KMS)
⚠️ API限流处理(指数退避)
⚠️ PII数据隔离(GDPR合规)
## 4. 代码审查
You: [编写代码后]
You: /review
Claude (资深工程师角色): 审查结果:
✅ [自动修复] 2个问题:
1. 未处理的OAuth令牌过期异常
2. 时区转换缺失(UTC → 用户时区)
❓ [需要批准] 竞态条件:
问题:Sync Engine 同时处理多个日历事件时,
可能重复创建任务。
建议:使用数据库唯一约束(email_id + calendar_id)
防止重复插入。
你:批准修复方案
Claude:应用修复...完成!
## 5. QA 测试
You: /qa https://staging.todoapp.com
Claude (QA负责人): 启动真实浏览器测试...
[打开真实Chrome浏览器]
1. ✓ 登录Google账号(Cookie导入成功)
2. ✓ 授权Gmail/Calendar权限
3. ✓ 查看任务自动捕获
4. ❌ 发现bug:会议地点显示错误
- 原因:时区转换错误(PST → EST)
- 修复:应用原子提交
- 验证:重新测试通过
5. ✓ 生成回归测试:test_timezone_conversion.py
测试总结:
- 发现1个bug,已修复
- 新增3个自动化测试
- 准备进入生产环境
## 6. 交付
You: /ship
Claude (发布工程师): 执行交付流程...
1. 同步main分支:git pull origin main
2. 运行测试:42个测试 → 51个(+9个新增)
✓ 全部通过
3. 审计测试覆盖率:35%(+5%)
⚠️ 建议:NLP Parser 模块覆盖率仅12%
4. 创建PR:github.com/you/todoapp/pull/42
标题:feat: 自动捕获Gmail和Calendar承诺
描述:[自动生成,基于设计文档]
交付完成!PR已创建,等待审查。
gstack 技能配置文件示例
yaml
# .gstack/config.yaml
# gstack 项目配置文件
sprint:
enabled_skills:
- /office-hours
- /plan-ceo-review
- /plan-eng-review
- /plan-design-review
- /review
- /qa
- /ship
- /retro
# 跳过技能(快速模式)
skip_skills:
- /cso # 非生产环境跳过安全审计
# 并行sprints(高级功能)
max_parallel_sprints: 3
quality_gates:
# 代码审查必须通过
review_required: true
# 测试覆盖率门槛
min_test_coverage: 30%
# QA必须通过真实浏览器测试
qa_required: true
# 安全审计门槛(生产环境)
security_audit_required: false
deployment:
# 自动部署配置
auto_deploy: false # 需要人工批准
staging_url: https://staging.todoapp.com
production_url: https://todoapp.com
# 部署后健康检查
health_check:
enabled: true
endpoint: /health
timeout: 30s
notifications:
# Sprint完成通知
on_sprint_complete:
- type: slack
channel: "#dev-notifications"
# QA发现bug通知
on_qa_bug_found:
- type: email
recipients:
- dev@todoapp.com
# 自定义决策原则
decision_principles:
- "优先选择Serverless架构"
- "避免引入新数据库,除非必要"
- "用户体验优先于开发速度"
🛠️ 技术选型
gstack 相关技术栈分析
1. AI代理平台选择
| 平台 | 适用场景 | 优势 | 劣势 | 推荐度 |
|---|---|---|---|---|
| Claude Code | 完整产品开发 | 理解整个代码库、编辑文件、执行命令 | 价格较高($20/月) | ⭐⭐⭐⭐⭐ |
| OpenAI Codex | 任务自主执行 | 复杂任务一致性好、自主性强 | 用户体验不如Claude | ⭐⭐⭐⭐ |
| Gemini CLI | Google生态集成 | 深度集成Google服务、免费额度 | 代码能力较弱 | ⭐⭐⭐ |
| Cursor | 快速原型 | AI-first IDE、开箱即用 | 单一角色、缺乏流程 | ⭐⭐⭐⭐ |
推荐:
- 生产环境:Claude Code + gstack(质量优先)
- 快速原型:Cursor(速度优先)
- 预算有限:Gemini CLI(免费额度)
2. 测试框架选择
| 框架 | 与gstack集成 | 优势 | 劣势 |
|---|---|---|---|
| Playwright | ✅ /browse 技能 |
真实浏览器、跨浏览器支持 | 资源占用较高 |
| Puppeteer | ⚠️ 需手动配置 | 轻量级、Chrome专用 | 功能不如Playwright |
| Cypress | ⚠️ 需手动配置 | 开发者体验好 | 不支持多标签页 |
推荐:Playwright(gstack 默认选择)
- 理由:真实浏览器测试、支持Chrome/Firefox/Safari
- 配置:
/setup-browser-cookies自动配置
3. 部署平台选择
| 平台 | 与gstack集成 | 优势 | 劣势 |
|---|---|---|---|
| Vercel | ✅ /land-and-deploy |
一键部署、自动HTTPS | 价格较高(企业版) |
| Railway | ✅ 自动检测 | 简单、数据库集成 | 功能有限 |
| AWS | ⚠️ 需手动配置 | 功能强大、价格低 | 配置复杂 |
推荐:
- MVP阶段:Vercel(快速部署、零配置)
- 增长阶段:Railway(数据库需求)
- 规模化:AWS(成本优化)
4. 数据库选择
| 数据库 | 与gstack集成 | 优势 | 劣势 |
|---|---|---|---|
| PostgreSQL | ✅ 默认推荐 | 功能强大、ACID事务 | 运维复杂 |
| Supabase | ✅ 自动配置 | Postgres + 实时 + Auth | 供应商锁定 |
| PlanetScale | ✅ 自动配置 | MySQL兼容、无限制分支 | 价格较高 |
推荐:
- 快速启动:Supabase(Postgres + Auth + Storage)
- 生产环境:PlanetScale(水平扩展)
- 传统应用:PostgreSQL(自托管)
5. 监控与日志
| 工具 | 与gstack集成 | 优势 | 劣势 |
|---|---|---|---|
| Sentry | ✅ /canary 技能 |
错误追踪、性能监控 | 免费额度有限 |
| Logtail | ⚠️ 需手动配置 | 日志聚合、实时搜索 | 学习曲线 |
| DataDog | ⚠️ 需手动配置 | 全栈监控 | 价格昂贵 |
推荐:Sentry(gstack 默认集成)
- 理由:错误追踪 + 性能监控 +
/canary技能支持 - 配置:
/setup-deploy自动检测并配置
gstack 技术架构图
┌─────────────────────────────────────────────────────────┐
│ 开发者(你) │
└────────────────────┬────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────┐
│ gstack 编排层 │
│ ┌──────────────────────────────────────────────────┐ │
│ │ 28个技能(Slash Commands) │ │
│ │ /office-hours, /plan-ceo-review, /qa, /ship... │ │
│ └──────────────────────────────────────────────────┘ │
└────────────────────┬────────────────────────────────────┘
│
┌───────────┼───────────┐
▼ ▼ ▼
┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ Claude Code │ │ OpenAI │ │ Gemini CLI │
│ (主要平台) │ │ Codex │ │ (可选) │
│ │ │ (可选) │ │ │
└─────────────┘ └─────────────┘ └─────────────┘
│ │ │
└───────────┼───────────┘
▼
┌─────────────────────────────────────────────────────────┐
│ 基础设施层 │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌────────── │
│ │ Playwright│ │ GitHub │ │ Vercel/ │ │ Sentry │ │
│ │ (测试) │ │ (CI/CD) │ │ Railway │ │ (监控) │ │
│ └──────────┘ └────────── └────────── └──────────┘ │
└─────────────────────────────────────────────────────────┘