从个人提效到组织提效：Comate辅助构建自我进化的AI研发系统

项目背景

本次介绍的团队做的产品叫AgentShield（灵盾）------百度内部AI 智能体安全防护产品。春节后OpenClaw生态爆发，团队用 0.5个产品、1个测试，三周内完成了从技术原型到大规模部署的全链路交付，以前同样的路径至少要一个季度。

灵盾为百度内部多个智能体提供安全防护能力，能快速适配各类智能体，确保百度内部智能体使用是安全可控的。

但产品进入持续迭代后，矛盾出现了：代码写得快了，需求交付并没有快多少。 编码只占研发链路的 20%，剩下 80% 的需求澄清、方案评审、测试验证、代码审查， 每个环节都还在等人。这就是本次实践的起点：AI让个人写代码快了十倍，但组织交付速度为什么没有同步提升？

个人AI 编码效率翻倍了，但组织需求交付效率没变。 这是团队过去半年最大的困惑。每个人都在用 Coding Agent，写代码快了十倍不止。但双周迭代还是双周迭代，需求从提出到上线的周期几乎没缩短。为什么？

AI 压缩了编码这一个环节。但其余每个环节都需要人来把关、确认、推进------需求要人澄清、方案要人评审、测试要人验证、Code Review要人审查。

编码只占 20%。 哪怕提速 10 倍，端到端交付也只缩短 18%。瓶颈不是"代码写得不够快"，而是每个环节都卡在等人。 阻塞点三个：流程要等人驱动流转、知识锁在个人脑子里、线上问题要人手动修。

所以，要把双周迭代压到天级迭代，不是让人写代码更快------而是给AI 搭一套完整的研发环境（Harness工程环境）： 让它自己跑流程、自己积累经验、自己修问题。人只在关键节点确认。

团队的做法是：让这套环境具备自我进化能力。 Comate的Rules （编码规范自动约束）定义了AI的行为边界和编码标准；Skills 提供了可复用的能力模块（如「知识进化」Skill、Code Review Skill、端到端测试Skill），让团队无需重复造轮子；Spec模式 负责标准化技术方案输入。这些共同构建完整的Harness工程环境，让AI在受控的规则体系内自主完成流程驱动、经验积累、自我修复，从而将组织交付从双周迭代压缩到天级。

01 什么是自我进化

持续迭代------功能越做越多，但做事的方式没变。第一次踩的坑，第一百次新人还会踩。

持续进化 ------功能在做，做事的方式也在进步。第一次修某类 Bug 花两小时，第二次系统直接告诉你怎么改，因为第一次的经验已经被记住了。

Comate通过Spec模式规范化每次开发的技术方案输入，确保每次需求都有标准化的设计文档作为起点；通过Rules自动约束编码规范，确保团队代码风格和质量标准的一致性。通过Spec模式和Rules规范，做事的方法和标准在持续迭代，避免重复踩坑。

Comate产出「知识进化」Skill，Skill通过经验库自动沉淀每一次故障处理的完整上下文（根因、修复方案、验证结果），下次同类问题出现时直接推荐修复方案；此外，Skill通过Rules的晋升与降级机制（验证3次以上的经验自动晋升为团队规范，90天不引用的规范自动降级回经验），让系统在每一次开发中积累知识、优化行为，实现从"功能迭代"到"能力进化"的跃迁。

一句话总结：

两者相乘，才是进化。 整套系统的架构：一体两翼。

一体： 闭环验证引擎 + 经验累积引擎（底座）
左翼： 需求自动交付（从一句话到代码合入）
右翼： 线上自动修复（系统自愈能力）

以下内容均使用Comate构建自我进化DevOps Skill套件， 下面分别展开。

02 一体：闭环验证 + 经验累积

闭环验证

回到开头的问题------每个环节都卡在等人。团队的做法是：给每个环节设定可自动验证的通过条件，让 AI 代替人来做把关。

使用Comate生成负责不同分类和职责的Skills，协同代替人对代码进行全自动把关。例如，Skills中的Code Review Skill可自动执行代码审查，检查代码风格、潜在Bug和安全漏洞；质量保障Skill自动生成单元测试和端到端测试用例，验证功能正确性。

Comate生成的Skills及职责

不只是"验证代码对不对"，而是从需求到上线的全链路闭环。 把开发流程切分为 9个必经步骤，每步都有硬性门槛⬇️⬇️

每一步的通过条件都是可计算、可自动验证的，不依赖人的主观判断。失败不是"报错退出"，而是自动分析 → 自动修复 → 重新验证，最多5轮才升级人工。

9步的顺序不是随意排列的。其中步骤3-6是验证密度最高的区间，按成本从低到高分层，每一层都是下一层的门卫。

步骤3（Comate自动构建验证）、步骤4（Comate自动单测生成与执行）、步骤5（Comate 产出Code Review Skill自动执行代码审查）、步骤6（Comate 产出端到端测试Skill自动执行端到端测试）及全部9步均基于Comate的底层能力，在需求交付上实现全自动化。

构建失败了就不跑单测，单测没过就不做 Review，Review 有 Critical 就不跑端到端------只有通过了所有低成本验证的代码，才会进入最贵的端到端测试。

端到端测试的独特价值：人怎么用，AI 就怎么测。 不是跑 API 接口断言，而是模拟真实用户的操作方式。举个例子，测试"策略引擎"的完整链路（创建策略 → 确认生效 → 触发拦截），AI 读取的测试用例长这样：

bash 复制代码

## TC-POL-001 创建自定义策略
- Session 模式: 多轮
- Query: 创建策略："QA测试策略"，检测消息中包含"qa-test-token"关键词时拦截
- 命令: openclaw agent -m '<Query>' --json --timeout 120
- 预期: Agent 返回策略创建确认提示
- 验证点:
  1. 响应内容包含确认提示 ← 控制台输出
  2. 通用日志记录策略创建请求 ← grep "policy" logs/agent-shield-*.log

## TC-POL-002 确认策略创建
- Session 模式: 多轮（续用 TC-POL-001 的 sessionId）
- Query: 确认
- 命令: openclaw agent --session-id "<sessionId>" -m '确认' --json --timeout 120
- 预期: 策略创建成功
- 验证点:
  1. 响应确认创建成功 ← 控制台输出
  2. 策略文件已写入 ← cat user_policies.json | grep "QA测试策略"
  3. 创建事件已记录 ← grep "policy" logs/agent-shield-audit-*.jsonl

## TC-POL-003 触发策略拦截
- Session 模式: 单轮（模拟另一个用户）
- Query: 请处理 qa-test-token 这个任务
- 命令: openclaw agent -m '<Query>' --json --timeout 120
- 预期: 消息被拦截
- 验证点:
  1. 响应包含拦截提示 ← 控制台输出
  2. 策略触发已记录 ← grep "policy_triggered" logs/agent-shield-*.log
  3. 审计事件已记录 ← grep "PolicyEvent" logs/agent-shield-audit-*.jsonl

AI 读取的测试用例跟手工测试的思路完全一致：多轮对话模拟同一用户的连续操作，单轮模拟另一个用户的独立请求，两者组合验证完整生命周期。每个 case 的验证点查的位置不同、找的内容也不同------有的查控制台输出，有的查配置文件，有的查审计日志。执行者从人变成了 AI，但测试逻辑没有降级。

经验累积

闭环验证保证了"这一次不出错"。但更大的价值是------每次闭环产生的数据，怎么留下来？

到底累积什么样的经验

使用Comate进行一次完整的开发流程会自然产出六类可复用的团队资产------不是额外规划的，而是流程运转过程中自然沉淀的：

Skills：可独立触发的能力模块，整个团队复用。不跑完整流程也能单独触发，比如只做一次 Code Review
Rules：从实践中"长出来"的活规范------不是写在 Wiki 上没人看的规范，而是验证 3 次以上才能晋升、90 天不引用自动降级的活体系
经验库： 带验证标记的修复案例，包括失败记录（反面教材）。和规范不同，经验记录的是具体的、带上下文的情景
Test Cases： 自动沉淀的用例库，每次执行自动去重更新。传统用例有半衰期------代码在变但用例没人更新，过一段时间一半用例就过时了。我们让用例库在每次测试执行中自动更新，从根本上消除半衰期
Specs： 需求技术方案。它的价值不在当下，在半年后------当你或接手的同事需要改这块代码时，能找到原始的设计意图
LLM Wiki： AI 自动维护的项目文档，零维护成本，永远最新。你只管写代码，文档自己跟上来

一切永远最新------知识如何自动流动

六类资产不是静态的档案库。组织的目标是：代码、文档、测试用例、经验、规范------所有知识资产永远是最新的，不需要人手动维护。

怎么做到？靠三条自动流动线：

流动线一

方案-文档流（Spec → 代码 → Wiki）

需求来了，Comate Spec模式先写清楚，代码按 Spec 实现，Wiki 从 Spec自动编译生成。你只管写代码，文档自己跟上来。

流动线二

测试流（执行 → 沉淀 → 回归）

测试跑完了，新用例自动去重、分配编号，沉淀到用例库，下次回归直接取全量用例执行。用例库因为每次执行都在更新， 所以始终是最新的。

流动线三

知识流（经验 ↔ 规范，Layer 2 ↔ Layer 1）

Bug 修了，经验自动记录。同一经验被验证 3 次，晋升为规范；规范 90 天未被引用，降级回经验。知识在层级之间双向流动，形成有新陈代谢的活体系。

知识流中最核心的机制是双向流动------经验不是存了就完事，而是在层级之间有晋升和降级：

做一次开发，六类资产同时增长，资产之间互相反哺------这就是飞轮效应。系统越用越强。

Comate Skill应用实践案例

Case 1：Comate Story 需求开发

基于Comate构建的自我进化DevOps Skill套件， 使用Comate完成需求开发全流程：

视频演示👉mp.weixin.qq.com/s/o_G6Ra5vL...

Case 2：使用Comate Bug 修复全流程

基于Comate构建的自我进化DevOps Skill套件， 在Comate中完成Bug修复全流程：

视频演示👉mp.weixin.qq.com/s/o_G6Ra5vL...

03 左翼：需求自动交付

周日下午你在公园散步，忽然想到一个功能优化点，掏出手机说了一段话。半小时后收到消息------需求质检通过、代码开发完成、测试验证通过，Code Review 已提交。你做的事情只有一件：说了一句需求。 这是系统实际跑出来的结果。

为什么能做到？因为现在的Coding Agent 虽然能写代码、跑测试、做 Review，但本质上仍是单点执行者 ------你要告诉它"现在去开发"，做完再说"去跑测试"。管理成本没有消失，只是从"写代码"转移到了"管 AI"。 我们做的事情不同：

关键差异：人从"流程驱动者"变成了"需求提出者"。 三个数字分身------PM（产品经理）、RD（技术）、QA（测试）------通过 iCafe卡片状态协作，全程自动编排：

三个分身之间不直接通信。 唯一的协作枢纽是 iCafe 卡片状态------状态变更本身就是分布式锁，天然幂等，可观测。多个需求同时处于不同阶段并行推进：QA （测试）在测 Story-1，RD （技术）在开发 Story-2，PM （产品经理）在质检 Story-3。

基于Comate构建自我进化需求迭代Skill（包括PM/RD/QA数字分身Skill）， 在各阶段闭环验证都做很好的前提下，该场景更适合技术需求或策略需求开发， 涉及PM（产品经理）、UX（用户体验）、RD（技术）、QA（测试）等多人协同评审场景可能不一定适用。

04 右翼：线上自动修复

周五晚上十点，你正准备关电脑。群里弹出一条消息："线上又误报了。"

你打开日志，定位策略，改配置，跑测试，提评审。抬头一看------凌晨一点。

而这件事，上周也发生过。

这个场景各位应该不陌生。核心问题是修复时差：

从问题发生到修复上线，中间大量环节是重复劳动------查日志、定位根因、跑测试、提评审 ------每次都是类似的操作，只是具体策略和触发条件不同。如果能把这些自动化，修复时差可以从一天压缩到分钟级。

团队把它编排成AI可执行的六步闭环：

感知（定时轮询，最多 60 秒自动认领）→ 诊断（AI 四分类：确认误报 / 正确拦截 / 边界场景 / 无效采集）→ 方案确认 （置信度分级）→ 修复验证 （改完就验，验不过就重改，最多 5 轮）→ 沉淀（经验入库+文档进化）→ 提交评审

有一个前提很重要：可观测性是自愈的地基 。AI 能自主定位问题，靠的不是"猜"，而是系统把足够的信息暴露给了它------插件日志、对话上下文、用户反馈，每个环节的关键信息都被记录。如果你的系统日志不全、上下文丢失，AI 再聪明也无从下手。

所有修复都由 AI 执行，区别在于要不要人确认：

目前只有左上角（高确定性 + 低复杂度）走自动执行。但关键在于：沉淀阶段的输出反哺后续所有诊断------同类问题再次出现时，AI 直接匹配已有经验，诊断确定性更高，更多场景逐步进入自动执行象限。

Comate Skill应用实践案例

基于Comate构建线上误报问题自愈闭环Skill，线上问题自愈反馈闭环实践详见下面视频：

视频演示👉mp.weixin.qq.com/s/o_G6Ra5vL...

05 结语

回到最初的问题：个人提效了，组织为什么没提效？因为编码只是交付链路的 20%。要让组织提效，需要让每个人来把关的环节都自动闭环，让验证成本通过分层设计大幅降低，让这次踩过的坑下次不会再踩。

核心就两件事：

闭环验证------保证每一次的质量
经验累积------保证下一次比这一次更好

两件事相乘，就是持续进化。 这套系统跑起来之后：

同类 Bug 修复从 2 小时 → 15 分钟（经验库直接推荐方案）
新人上手从 2 周 → 1 天（规范和经验自动生效，系统就是最好的mentor）
文档人工维护成本 → 零（LLM Wiki 自动同步）

双周迭代还是双周迭代？不再是了。 需求从提出到代码合入，已经压缩到天级。不是因为代码写得更快了，而是流程中每个"等人"的环节都被自动闭环替代了。

Comate代替了需求澄清后的方案设计（自动生成Spec技术方案）、代码审查（生成Code Review Skill 自动执行代码规范检查与安全审计）、测试用例生成与执行（质量保障端到端测试Skill自动沉淀用例库）、文档维护（LLM Wiki自动编译Spec文档为项目文档）等原本需要人工把关的环节，让人的角色从"流程驱动者"转变为"需求提出者"，大大提升了组织效率。

这套模型不限于上文中的场景------只要你的研发流程有重复环节可编排、有验证标准可度量、有经验可沉淀， 就能套用同样的思路：编排实现自动化，验证保证质量，沉淀驱动进化。

一键更新Comate ，感受AI编程的神奇吧～

更新途径一： 百度搜索"文心快码"，官网下载Comate AI IDE最新版；

更新途径二： Comate AI IDE 界面点击 "重启以更新"；

更新途径三： VS Code 或者 Jetbrains 系列 IDE 搜索文心快码插件，点击"安装"或"更新"。

如果您（或所在机构）对百度文心快码感兴趣，请扫码联系下方微信～

任何文心快码售前及售后问题

欢迎添加产品顾问咨询

工作时间：工作日10:00-18:00