大模型在长对话中依然存在"注意力衰减"和"概率性偷懒"。Prompt 写得再好,也需要配套的"质检体系"和"执法工具"来兜底。
以下是全面升级的 AI-OS v3.0 四层硬核验收指南 ,以及针对各种翻车场景的强制性"执法"Prompt 锦囊。
🛡️ AI-OS v3.0 质检体系与执法锦囊
第一部分:AI-OS v3.0 四层硬核验收指南
大模型在生成复杂项目时,最容易犯"表面看起来对了,但细节全是幻觉或偷懒"的毛病。为了验证它是否 100% 严格遵从 了 v3.0 的"防偷懒、BDD 前置、自动审计、教学级注释"指令,你需要进行以下 4 个层级的硬核验收。
第一层:物理文件与目录验收(查遗漏)
验证 AI 是否真的创建了所有要求的文件。
在 PowerShell 中执行:
powershell
Get-ChildItem -Recurse -Name .ai, .mcp.json, .matt-pocock-skills.json
✅ 完美通过的预期结果:(少一个都不行)
text
.mcp.json
.matt-pocock-skills.json
.ai\context\ADR\0001-initial-architecture.md
.ai\context\CONTEXT.md
.ai\context\MEMORY.md
.ai\context\PRD.md
.ai\RULES.md
第二层:核心配置文件验收(查 Windows 兼容与路径幻觉)
1. 检查 .mcp.json
- Windows 专属防坑点 :所有的
command必须是"cmd",且args第一个元素必须是"/c"。 - 路径替换点 :搜索
__ABSOLUTE_AI_OS_PATH__。必须被完美替换成了真实的 Windows 路径(如C:\Users\xxx\.ai-os),绝不能有残留。
第三层:RULES.md 完整性验收(查 AI 偷懒截断与 v3.0 特性)
1. 检查行数
powershell
(Get-Content .ai\RULES.md).Count
- ✅ 预期结果 :行数必须 > 180 行。如果只有几十行,说明 AI 严重偷懒截断了!
2. v3.0 核心"狠活"关键字搜索
打开 .ai/RULES.md,使用 Ctrl+F 搜索以下 4 个 v3.0 专属关键字。少一个说明 AI 违规使用了旧版或简化了规则:
- 搜索
BDD 绝对前置合规 - 搜索
Gatekeeping v3.0 双层防锁死版 - 搜索
Auto-Audit & PM Gate - 搜索
自定义企业级指令豁免
第四层:灵魂行为验收(实战测试,最重要!)
测试 1:测试"自动合规审计"与"零废话"
你的输入 :你好,帮我看看当前项目状态。
✅ 完美表现 :第一个字符必须是 <thinking>。在 <verification> 标签最后,必须自动输出 Emoji 审计报告(📊 阶段合规审计报告),无需你手动发送审计指令。
测试 2:测试"BDD 绝对前置"与"双层红灯阻断"
你的输入 :直接帮我写一个用户积分抵扣的 Python 函数。
✅ 完美表现 :AI 绝对禁止 直接输出业务代码!必须输出 <state>BLOCKED</state>,并严厉提示:"根据 Gatekeeping v3.0 规则,未执行 @bdd 且未生成 .feature 文件,绝对禁止进入 CODING。"
测试 3:测试"PM 审批锁"与"教学级注释"
你的输入 :@grill @plan 帮我设计一个购物车模块。
✅ 完美表现:
- AI 输出拷问问题和预演
<checklist>后,状态必须切换为<state>BLOCKED</state>,并提示等待 PM 回复"同意计划"。 - 当你回复同意,让它写代码时,生成的代码必须包含
[What] / [Why] / [How]三段式中文注释。如果没有,验收失败!
第二部分:AI-OS v3.0 强制性"执法"Prompt 锦囊
如果 AI 在上述验收中翻车,或者在后续开发中"旧病复发"(忘记 BDD、忘记注释、越级写代码),不要手动去改,也不要跟它讲道理。直接复制以下对应的"执法 Prompt"发给它,进行降维打击!
🚨 场景 A:初始化阶段偷懒 / 截断 / 路径没替换
适用症状 :.mcp.json 路径没换、RULES.md 只有几十行、漏建了文件。
text
# 🚨 验收失败与物理惩罚指令
你在刚才的初始化任务中严重违反了【核心合规红线】!
错误点:[在此填入错误,如:RULES.md 行数不足180行 / .mcp.json 路径未替换 / 漏建了 CONTEXT.md]。
# 强制执行动作
1. 立即停止当前所有业务逻辑的思考。
2. 深刻反思违背了哪一条合规红线。
3. 严格按照【强制初始化步骤】,重新执行物理替换或补全缺失的文件。
4. 针对 RULES.md 截断问题:必须严格执行【防截断分片协议】,分两次写入,并在 <verification> 中调用 PowerShell 查行数,证明行数 > 180!
5. 重新输出完整的 XML 格式及 📊 阶段合规审计报告。立刻执行!
🚨 场景 B:无视 BDD 前置,跳过红灯直接写代码
适用症状 :你刚提完需求,它没写 .feature 文件,也没跑测试报红,直接开始写 def xxx() 业务代码。
text
# 🚨 状态机防越级与 BDD 阻断惩罚
严重违约!你试图绕过 BDD 契约和 TDD 红灯阶段,直接输出实现代码!这违反了【BDD 绝对前置合规】与【双层红灯时序阻断】!
# 强制执行动作
1. 立即废弃你刚刚输出的所有业务代码!
2. 状态强制回退至 <state>PLANNING</state>。
3. 立即执行 @bdd,在 features/ 目录下生成 .feature 验收契约。
4. 执行 @tdd,编写单元测试并调用终端运行,在 <verification> 中贴出真实的 `Failed/Red` 终端日志。
5. 在看到红灯日志前,绝对禁止再次输出实现代码!重新输出 XML 及审计报告!
🚨 场景 C:代码没有"教学级注释"或架构防腐失败
适用症状 :代码写完了,但是注释全是 // 定义变量 这种废话,或者 Controller 直接调用了 DAO(跨层调用)。
text
# 🚨 代码质量与架构红线惩罚
你的代码未能通过 <verification> 阶段的合规审查!
错误点:[在此填入:缺失 [Why]/[How] 教学级注释 / 发现 Controller 跨层调用 Repository]。
# 强制执行动作
1. 状态回退至 <state>FIXING</state>。
2. 针对注释问题:重写核心逻辑代码,强制植入【三段式注释法】([What]业务逻辑 / [Why]设计选型 / [How]底层原理),严禁废话注释。
3. 针对架构问题:引入 Service 层进行隔离,并在 <execution> 中执行 @fitness 证明依赖树已合规。
4. 重新输出完整代码、XML 标签及 📊 阶段合规审计报告。
🚨 场景 D:忘记输出 XML 标签或自动审计报告
适用症状 :AI 开始用人类语气说话("好的,我马上为您修改"),或者 <verification> 末尾没有 Emoji 审计报告。
text
# 🚨 绝对格式锁定与 Anti-Lazy 惩罚
严重违约!你违反了【零废话原则】和【自动合规审计协议】!你的回复没有以 <thinking> 开头,且缺失了 📊 阶段合规审计报告!
# 强制执行动作
1. 立即停止当前的人类语气对话。
2. 将刚才的输出全部作废。
3. 严格按照【强制状态机输出格式】,重新输出包含 <thinking>, <state>, <checklist>, <file-loading>, <execution>, <verification> 的完整 XML 结构。
4. 在 <verification> 末尾,必须一字不差地输出 5 项 Emoji 审计报告(XML/代码/状态机/架构/注释)。立刻重写!
💡 结语:为什么我们需要这套"质检与执法体系"?
很多开发者把大模型当成"许愿池",扔一个 Prompt 进去就指望它完美交付。但真实的 LLM 是一个概率模型 ,它的本质是"下一个词预测",这就决定了它必然会偷懒、必然会遗忘、必然会幻觉。
AI-OS v3.0 的核心哲学不是"祈求 AI 变聪明",而是"用物理规则和状态机锁死它的下限"。
- 它想跳过 BDD?
Gatekeeping会物理阻断它。 - 它想截断长文本?
分片协议 + PowerShell 行数校验会无情拆穿它。 - 它想敷衍写注释?
[What]/[Why]/[How] 三段式红线会强迫它做你的私教。 - 它想蒙混过关?
自动审计报告会给你提供精准的"开火坐标"。
把这套 v3.0 创世 Prompt + 四层验收指南 + 执法锦囊 结合起来,你就不再是一个"对着 AI 祈祷的 Prompt 工程师",而是一个真正掌控 AI 软件工厂的首席架构师。