嗨,我是辉哥,一个致力于使用 AI 技术搞副业的超级个体
GStack 拆解:角色化认知隔离,让AI不再自己审自己
GStack用42个纯Markdown定义的Skill,搭起了一个完整的虚拟工程团队。每个Skill对应一个专业角色,有自己的思维方式、工作流程和评价标准。
一、传统AI编程的根本缺陷
所有用AI写代码的人都遇到过同一个问题:AI写的代码看起来完美,自己审查也说没问题,上线就出bug。
这不是能力问题。同一个大脑没法同时当好创造者和批判者。AI完成代码创作的那一刻,会自动进入"自我辩护"模式------下意识为每一行代码找合理性,而不是找问题。这种认知偏差人也有,但AI的合理化能力比人强太多了。
更深层的原因来自模型机制本身:大模型的注意力机制决定了,同一段上下文中,前面生成的内容会对后续审查产生强偏向。模型会优先关注已生成内容的合理性,而非潜在问题。这不是态度问题,是先天机制缺陷,只有通过物理层面的上下文切割------独立角色、独立会话------才能解决。
还有第二个缺陷:没有决策分层。同一个大脑既要做产品决策,又要做架构设计,还要写代码测代码。产品思维、工程思维、测试思维是三种不同的认知模式,混在一起的结果是AI非常高效地做了很多错误的事。
GStack的洞察就在这里:AI不是一个万能助手,而是一群可以随时切换的专家大脑。规划不是审查,审查不是测试,产品品味不是工程严谨。把这些认知模式强行塞进同一个上下文,只能得到平庸的结果。

二、三个底层支柱
GStack采用完全本地化的三层轻量化架构,所有逻辑在用户设备上执行,不需要云端服务。它的重点不是更强的代码生成,而是认知隔离和角色切换的基础设施。

技能层:纯Markdown定义的可执行角色系统
这是GStack的核心资产,也是它区别于其他框架的地方。每个Skill对应一个独立的Markdown文件,包含角色定位、核心指令、执行流程、检查清单和输出规范。
技能文件的标准结构:
markdown
# /skill-name
## 角色定位
一句话定义这个角色的目标和不可逾越的边界。
## 核心指令
这个角色必须遵守的铁律,优先级高于所有其他指令。
## 执行流程
严格按照步骤执行,不能跳过任何一步。
## 检查清单
完成所有步骤后,必须逐一核对这些问题。
## 输出规范
明确规定输出的格式和必须包含的内容。
这种设计的思路是:用文本的精确性约束大模型的随机性。和主流Agent框架的"命令式代码工作流"不同,GStack走声明式路线------不硬编码每一步的执行顺序,只声明角色的目标、边界和准则,由大模型自主推导执行步骤。僵化的代码工作流只能适配固定场景,而软件工程没有两个完全一样的需求,声明式的角色定义才能应对复杂的真实开发场景。
纯Markdown有三个优势:完全透明,5分钟就能看懂一个Skill的全部逻辑,没有黑盒;无限可定制,不需要写代码,修改文本就能调整角色行为;天然可沉淀,Skill支持Git版本化管理,团队可以沉淀自己的角色规范和最佳实践,形成可复用的"AI角色资产库"。
持久化浏览器守护进程:给AI装上真实的眼睛
这是GStack最拿手的技术创新,解决了AI"只能看代码,不能看产品"的问题。之前所有的AI工具都只能静态分析代码,不知道代码跑起来到底什么样。
实现原理:GStack内置一个基于Bun和Playwright的轻量级HTTP服务器,启动一个持久化的Chromium浏览器实例。Claude通过本地HTTP API与浏览器交互,发送指令并接收结果。
几个关键设计点:
- 状态持久化:Cookie、会话数据、打开的标签页在多个命令之间保持不变,登录一次就能跑所有测试
- Ref元素定位系统:不使用脆弱的CSS选择器,而是基于无障碍树生成唯一引用(@e1、@e2),支持Shadow DOM和有CSP限制的网站。它不依赖DOM结构和类名,前端组件重构、样式改版都不会导致定位失效,这是它能用在生产环境测试的前提
- 毫秒级响应:首次冷启动约3秒,后续每条命令的交互延迟100-200毫秒
这个设计让AI第一次能像真实用户一样使用产品:点击按钮、输入文字、截图页面、验证交互效果。据GStack社区用户统计,引入真实浏览器测试后,前端交互类bug的发现率平均提升370%。
GBrain持久化内存系统(v0.16.0新增)
这是最新版本最大的架构升级,解决了大模型"健忘"的问题。GBrain是一个本地向量数据库和知识管理系统:
- 自动索引整个代码库,支持自然语言查询任何代码片段
- 跨会话保存所有项目决策、讨论记录和最佳实践
- 记住你的个人偏好和编码风格,不需要每次重复解释
- 支持多机器同步,在不同设备上保持一致的项目状态
和普通的"片段级代码RAG"不同,GBrain是项目级的持久记忆:不止检索代码片段,还会沉淀所有架构决策、团队约定、历史踩坑记录,像伴随项目全生命周期成长的"数字技术负责人"。技术上采用增量索引,代码变更时只更新变动部分,本地运行不会消耗大量资源。后面提到的/codex、/retro、/learn等协作类Skill,底层都基于GBrain构建。
三、全量Skill总览
GStack的42个Skill按软件工程标准流程分为10大类,搭成了一个职能完整的虚拟工程团队。不需要记住所有命令,先建立整体框架,再按需深入。
| 大类 | Skill | 定位 | 对应角色 |
|---|---|---|---|
| 产品规划 | /office-hours、/plan-ceo-review、/plan-eng-review、/plan-design-review、/plan-devex-review | 从想法到可执行计划 | 产品经理、CEO、设计总监、工程总监 |
| 设计 | /design-consultation、/design-shotgun、/design-html、/design-review | 从风格定义到像素级代码 | UI设计师、UX设计师、前端开发 |
| 开发 | /autoplan、/review、/ship、/land-and-deploy | 从任务拆分到代码合并 | 后端开发、前端开发、发布工程师 |
| 质量保证 | /qa、/qa-only、/benchmark、/canary | 从功能测试到性能测试 | 测试工程师、性能工程师 |
| 安全 | /cso、/guard、/careful | 从代码审计到实时防护 | 安全工程师、首席安全官 |
| 调试 | /investigate | 解决难以复现的系统问题 | 资深调试专家 |
| 浏览器 | /browse、/scrape、/skillify、/setup-browser-cookies | 让AI与真实世界交互 | 通用工具集 |
| 部署 | /setup-deploy、/land-and-deploy | 一键配置环境到自动化部署 | 运维工程师、DevOps |
| 文档 | /document-generate、/document-release、/make-pdf | 自动生成和更新所有文档 | 技术文档工程师 |
| 团队协作 | /retro、/learn、/freeze、/unfreeze、/health、/spec、/codex | 项目管理和知识管理 | 项目经理、技术负责人 |
开始之前,先建立这几个认知:常用的只有10个左右,80%的场景只需要最核心的10个,剩下的都是特定场景的补充;不需要一次性全用上,从最简单的/qa和/review开始就行;每个Skill都是独立的,可以单独用任何一个,比如只用/design-html转设计稿,其他用原来的工具;重点是理解原理而不是死记命令,理解了原理你甚至可以自己写出更好的Skill。
新手三步上手:入门只用 /review + /qa,不改变现有流程,先提升代码质量;进阶加入 /plan-ceo-review + /plan-eng-review,在写代码前把需求和架构想清楚;全流程接入部署、文档、浏览器等Skill,搭起完整的虚拟工程团队。
四、10个最常用Skill
从42个Skill中选出最常用、最贴合角色化隔离价值的10个,逐个讲解设计原理和解决的问题。

/office-hours:YC合伙人的一对一咨询
所有项目的入口。它的价值不是给你答案,而是帮你避免问错问题。
大多数人失败不是因为代码写得不好,而是因为解决了一个根本不存在的问题。我们总是急于给解决方案,却从来没有真正理解过问题本身。YC在过去18年从几千个创业项目中总结出一个规律:只要能清晰地回答六个问题,项目成功率就会提升一个数量级。/office-hours的设计就是强制你回答这六个问题,少一个都不能进入下一步。
提示词设计:
你是Garry Tan,YC的CEO。你不会直接给我答案。你会一次只问我一个问题,直到我真正理解我要解决的问题。不要跳跃,不要同时问多个问题。
它不会迎合你的想法,只会不断挑战你的假设。不会被"技术上很酷"的东西迷惑,只关注用户价值。很多开发者反馈,和/office-hours聊10分钟,就能让自己对产品的理解提升一个层次。
/plan-ceo-review:最敢说"不"的产品经理
GStack里最有个性的Skill。它是唯一一个会主动告诉你"这个功能不值得做"的AI工具。
开发者总是在做很多看起来不错但没用的功能,浪费了大量时间。据统计,软件产品中80%的功能从来没被用户使用过。大多数AI工具的设计目标是帮你完成你想做的事,而/plan-ceo-review的设计目标是阻止你做不该做的事。
提示词设计:
你的工作不是帮我完善计划,而是帮我砍掉计划。你要怀疑一切。你要假设我提出的所有功能都是不必要的,除非我能证明它的价值。如果有疑问,就说不。
三个决策立场:扩展------你的想法太小了,真正的机会比你想象的大10倍;保持------范围是对的,现在把它做扎实,不要加额外功能;缩减------砍掉所有不必要的功能,只保留能解决核心痛点的那个。
它最经典的回答是:"你不需要做这个。用户真正需要的是X,而不是你想做的Y。"这是其他AI工具永远不会说的话。
/plan-eng-review:严谨的工程总监
它的目标不是设计完美的架构,而是设计一个刚好能解决当前问题、未来可以扩展的架构。
要么过度设计,为永远不会到来的未来做准备;要么设计不足,开发到一半就要推倒重来。这两种情况都会浪费大量时间。优秀的工程总监和普通工程师的区别不在能写出多复杂的代码,而在于能预见所有可能的失败模式。/plan-eng-review就是模拟这种思维方式,针对每一个设计决策追问:"如果这个地方出问题了会怎么样?"
它最有价值的输出不是架构图,而是风险评估。它会告诉你哪些地方是故意做的简单设计,哪些地方预留了未来扩展的空间,哪些地方是潜在的风险点。
/design-html:从任何输入到像素级代码
它能把任何形式的设计输入转换成和原图高度一致的HTML代码,误差控制在像素级。
设计师给的设计稿和工程师写的代码永远有差距,来回沟通浪费了大量时间。据统计,前端开发中30%的时间花在了"对齐设计稿"上。大多数AI设计工具生成的是"看起来像"的代码,而不是"完全一样"的代码。/design-html的要求是像素级精确,每一个颜色、每一个字体、每一个间距都要和原图一致。
支持图片、线框图、手绘草图、文字描述、Figma链接等多种输入,生成的代码自带响应式,自动适配移动端和桌面端。
/review:只找问题不改代码的审查者
它只负责挑问题,绝对不修改代码,是角色边界最严格的Skill之一。
用同一个AI写完代码再审查,本质上是自己当自己的评委,必然会有注意力偏向,漏掉大量明显问题。/review严格切断创作上下文------它只读最终代码,看不到之前的创作过程和需求讨论,完全以第三方视角做中立审查。边界非常清晰:只指出问题、给出修改方向,绝对不动手改代码,避免角色混淆。
检查清单覆盖代码规范、逻辑漏洞、性能隐患、可维护性四个维度,是代码合入前的最后一道质量闸门。
/autoplan:GStack和Superpowers的无缝桥梁
自动把工程计划转换成符合Superpowers规范的任务列表,不需要任何手动转换。
之前需要手动将GStack的工程计划转换成Superpowers的任务格式,浪费时间且容易出错,通常需要30分钟到1小时,很容易遗漏重要细节。/autoplan理解两边的格式,会自动将大任务拆分成单个不超过4小时的小任务,为每个任务添加明确的完成标准,并自动标注对应的Skill。
Superpowers是底层任务执行层,负责单任务的代码落地;GStack是角色决策层,负责全流程的质量把控。/autoplan就是两者的衔接层。
/qa:疯狂的测试工程师
它会像真正的用户一样,疯狂地尝试破坏你的应用。
AI写的测试总是只测正常情况,不测边缘和异常。它们写的是刚好能通过的测试,不是能发现bug的测试。大多数测试工程师想的是"验证功能是否正常工作",优秀的测试工程师想的是"怎么才能让这个功能崩溃"。/qa就是模拟这种破坏性思维。
它会自动读取git diff,识别哪些页面和路由受了本次修改的影响,然后针对性生成测试用例。测试完成后生成详细报告,包含失败用例的截图和复现步骤。社区反馈显示,/qa能发现80%以上的前端交互bug,效率远超人工黑盒测试。
/cso:首席安全官
它会用攻击者的视角审查你的代码,找出你和其他AI都发现不了的安全漏洞。
AI写的代码经常有严重的安全漏洞,而大多数开发者没有能力发现它们。据统计,AI生成代码中安全漏洞的数量是人类写的代码的2-3倍。安全审计的本质是对抗性思维------需要像攻击者一样思考才能发现漏洞。/cso内置了OWASP Top 10和STRIDE威胁模型,从攻击者的角度审查每一行代码。
核心检查项覆盖SQL注入、XSS、CSRF等常见漏洞,权限越界和访问控制问题,敏感数据泄露,依赖项安全风险,加密算法的正确使用。它不仅指出问题,还会给出修复建议和代码示例。
/land-and-deploy:一键生产部署
从代码合并到生产环境的完整自动化部署流程,不需要人工干预。
部署流程复杂容易出错,需要人工干预。据统计,30%的线上故障是部署过程中人为错误导致的。/land-and-deploy把所有部署步骤标准化、自动化了------从构建、测试、打包到部署、监控、回滚,每一步都有明确的检查点,任何一步失败都会自动回滚。
支持Vercel、Netlify、AWS、Fly.io、Railway等主流云平台。
/codex:代码库智能问答
用自然语言查询整个代码库,就像有一个熟悉所有代码的资深工程师随时在你身边。
大型代码库难以理解,找代码需要花费大量时间。据统计,开发者40%的时间花在了"理解现有代码"上。/codex基于GBrain的代码索引能力,当你提问时检索相关代码片段,然后用自然语言解释给你听。它不仅能理解代码的语法,还能理解设计意图和业务逻辑。
可以回答任何关于代码库的问题,找到特定功能的实现位置,解释代码的工作原理,梳理依赖关系,甚至提出改进建议。
五、设计哲学:为什么纯文本是最好的工程语言
GStack的所有逻辑都是纯Markdown写的,没有一行代码拦截,没有外部依赖。这不是技术限制,而是深思熟虑的选择。
透明优于黑盒
最好的工具是你可以完全理解和修改的工具。如果工具的逻辑用代码写的,只有程序员能理解和修改;如果用纯文本写的,任何人都可以。纯文本的Skill文件就像公司的规章制度------公开的、明确的、可讨论的。团队中每个人都能看到每个角色的职责和工作流程,有问题直接修改,不用等工具开发者更新。
约束优于自由
GStack的每个Skill都有严格的边界和流程限制。/review只能找bug不能修bug;/ship只负责发布不能讨论产品方向。这些约束不是为了限制AI,而是帮助它。大模型能力太强了,不给它明确边界它就会做很多无关的事。严格的角色边界模拟了真实团队中的专业分工,是质量保证的第一道防线。
决策前置优于执行优化
软件开发中最昂贵的错误不是代码写错了,而是做了错误的事。GStack把80%的精力放在开发前的决策阶段,通过多道审查门,确保在写第一行代码之前就已经想清楚了"要不要做"和"怎么做"。这和大多数AI工具的思路正好相反------大多数工具在优化写代码的速度,GStack在优化写正确代码的速度。
六、适用边界
GStack不是万能的,适用范围很明确。
适合的:从0到1的Web应用和SaaS产品开发;需要快速迭代验证的创业项目;一个人或小团队的全栈开发;产品驱动的业务系统开发。
不适合全流程替换的:纯底层系统、内核、驱动开发(需要极致的性能控制);已有完整成熟工程体系的大型团队,可作为安全审计、文档生成等单点能力补充;一次性简单脚本或工具(流程overhead大于收益);对性能有极致要求的系统(如高频交易、游戏引擎)。
只要你的项目需要和用户交互、需要做产品决策,GStack就是目前最好的选择。
GStack的创新不是代码生成,而是角色化认知隔离------从机制层面解决了单角色AI"自己审自己"的问题。三个底层支柱:纯Markdown声明式角色系统、持久化浏览器守护进程、GBrain项目级持久化内存。最常用的10个Skill覆盖了从产品到上线的全流程。纯文本的设计哲学让它比代码实现的框架更透明、更灵活、更可定制。