从个人提效到组织提效:Comate辅助构建自我进化的AI研发系统

项目背景

本次介绍的团队做的产品叫AgentShield(灵盾)------百度内部AI 智能体安全防护产品。春节后OpenClaw生态爆发,团队用 0.5个产品、1个测试,三周内完成了从技术原型到大规模部署的全链路交付,以前同样的路径至少要一个季度。

灵盾 为百度内部多个智能体提供安全防护能力,能快速适配各类智能体,确保百度内部智能体使用是安全可控的。

但产品进入持续迭代后,矛盾出现了:代码写得快了,需求交付并没有快多少。 编码只占研发链路的 20%,剩下 80% 的需求澄清、方案评审、测试验证、代码审查, 每个环节都还在等人。这就是本次实践的起点:AI让个人写代码快了十倍,但组织交付速度为什么没有同步提升?

个人AI 编码效率翻倍了,但组织需求交付效率没变。 这是团队过去半年最大的困惑。每个人都在用 Coding Agent,写代码快了十倍不止。但双周迭代还是双周迭代,需求从提出到上线的周期几乎没缩短。为什么?

AI 压缩了编码这一个环节。但其余每个环节都需要人来把关、确认、推进------需求要人澄清、方案要人评审、测试要人验证、Code Review要人审查。

编码只占 20%。 哪怕提速 10 倍,端到端交付也只缩短 18%。瓶颈不是"代码写得不够快",而是每个环节都卡在等人。 阻塞点三个:流程要等人驱动流转、知识锁在个人脑子里、线上问题要人手动修。

所以,要把双周迭代压到天级迭代,不是让人写代码更快------而是给AI 搭一套完整的研发环境(Harness工程环境): 让它自己跑流程、自己积累经验、自己修问题。人只在关键节点确认。

团队的做法是:让这套环境具备自我进化能力。 Comate的Rules (编码规范自动约束)定义了AI的行为边界和编码标准;Skills 提供了可复用的能力模块(如「知识进化」Skill、Code Review Skill、端到端测试Skill),让团队无需重复造轮子;Spec模式 负责标准化技术方案输入。这些共同构建完整的Harness工程环境,让AI在受控的规则体系内自主完成流程驱动、经验积累、自我修复,从而将组织交付从双周迭代压缩到天级。

01 什么是自我进化

  • 持续迭代------功能越做越多,但做事的方式没变。第一次踩的坑,第一百次新人还会踩。
  • 持续进化 ------功能在做,做事的方式也在进步。第一次修某类 Bug 花两小时,第二次系统直接告诉你怎么改,因为第一次的经验已经被记住了。

Comate通过Spec模式规范化每次开发的技术方案输入,确保每次需求都有标准化的设计文档作为起点;通过Rules自动约束编码规范,确保团队代码风格和质量标准的一致性。通过Spec模式和Rules规范,做事的方法和标准在持续迭代,避免重复踩坑。

Comate产出「知识进化」Skill,Skill通过经验库自动沉淀每一次故障处理的完整上下文(根因、修复方案、验证结果),下次同类问题出现时直接推荐修复方案;此外,Skill通过Rules的晋升与降级机制(验证3次以上的经验自动晋升为团队规范,90天不引用的规范自动降级回经验),让系统在每一次开发中积累知识、优化行为,实现从"功能迭代"到"能力进化"的跃迁。

一句话总结:

两者相乘,才是进化。 整套系统的架构:一体两翼。

  • 一体: 闭环验证引擎 + 经验累积引擎(底座)
  • 左翼: 需求自动交付(从一句话到代码合入)
  • 右翼: 线上自动修复(系统自愈能力)

以下内容均使用Comate构建自我进化DevOps Skill套件, 下面分别展开。

02 一体:闭环验证 + 经验累积

闭环验证

回到开头的问题------每个环节都卡在等人。团队的做法是:给每个环节设定可自动验证的通过条件,让 AI 代替人来做把关。

使用Comate生成负责不同分类和职责的Skills,协同代替人对代码进行全自动把关。例如,Skills中的Code Review Skill可自动执行代码审查,检查代码风格、潜在Bug和安全漏洞;质量保障Skill自动生成单元测试和端到端测试用例,验证功能正确性。

Comate生成的Skills及职责

不只是"验证代码对不对",而是从需求到上线的全链路闭环。 把开发流程切分为 9个必经步骤,每步都有硬性门槛⬇️⬇️

每一步的通过条件都是可计算、可自动验证的,不依赖人的主观判断。失败不是"报错退出",而是自动分析 → 自动修复 → 重新验证,最多5轮才升级人工。

9步的顺序不是随意排列的。其中步骤3-6是验证密度最高的区间,按成本从低到高分层,每一层都是下一层的门卫。

步骤3(Comate自动构建验证)、步骤4(Comate自动单测生成与执行)、步骤5(Comate 产出Code Review Skill自动执行代码审查)、步骤6(Comate 产出端到端测试Skill自动执行端到端测试)及全部9步均基于Comate的底层能力,在需求交付上实现全自动化。

构建失败了就不跑单测,单测没过就不做 Review,Review 有 Critical 就不跑端到端------只有通过了所有低成本验证的代码,才会进入最贵的端到端测试。

端到端测试的独特价值:人怎么用,AI 就怎么测。 不是跑 API 接口断言,而是模拟真实用户的操作方式。举个例子,测试"策略引擎"的完整链路(创建策略 → 确认生效 → 触发拦截),AI 读取的测试用例长这样:

bash 复制代码
## TC-POL-001 创建自定义策略
- Session 模式: 多轮
- Query: 创建策略:"QA测试策略",检测消息中包含"qa-test-token"关键词时拦截
- 命令: openclaw agent -m '<Query>' --json --timeout 120
- 预期: Agent 返回策略创建确认提示
- 验证点:
  1. 响应内容包含确认提示 ← 控制台输出
  2. 通用日志记录策略创建请求 ← grep "policy" logs/agent-shield-*.log

## TC-POL-002 确认策略创建
- Session 模式: 多轮(续用 TC-POL-001 的 sessionId)
- Query: 确认
- 命令: openclaw agent --session-id "<sessionId>" -m '确认' --json --timeout 120
- 预期: 策略创建成功
- 验证点:
  1. 响应确认创建成功 ← 控制台输出
  2. 策略文件已写入 ← cat user_policies.json | grep "QA测试策略"
  3. 创建事件已记录 ← grep "policy" logs/agent-shield-audit-*.jsonl

## TC-POL-003 触发策略拦截
- Session 模式: 单轮(模拟另一个用户)
- Query: 请处理 qa-test-token 这个任务
- 命令: openclaw agent -m '<Query>' --json --timeout 120
- 预期: 消息被拦截
- 验证点:
  1. 响应包含拦截提示 ← 控制台输出
  2. 策略触发已记录 ← grep "policy_triggered" logs/agent-shield-*.log
  3. 审计事件已记录 ← grep "PolicyEvent" logs/agent-shield-audit-*.jsonl

AI 读取的测试用例跟手工测试的思路完全一致:多轮对话模拟同一用户的连续操作,单轮模拟另一个用户的独立请求,两者组合验证完整生命周期。每个 case 的验证点查的位置不同、找的内容也不同------有的查控制台输出,有的查配置文件,有的查审计日志。执行者从人变成了 AI,但测试逻辑没有降级。

经验累积

闭环验证保证了"这一次不出错"。但更大的价值是------每次闭环产生的数据,怎么留下来?

到底累积什么样的经验

使用Comate进行一次完整的开发流程会自然产出六类可复用的团队资产------不是额外规划的,而是流程运转过程中自然沉淀的:

  • Skills:可独立触发的能力模块,整个团队复用。不跑完整流程也能单独触发,比如只做一次 Code Review
  • Rules:从实践中"长出来"的活规范------不是写在 Wiki 上没人看的规范,而是验证 3 次以上才能晋升、90 天不引用自动降级的活体系
  • 经验库: 带验证标记的修复案例,包括失败记录(反面教材)。和规范不同,经验记录的是具体的、带上下文的情景
  • Test Cases: 自动沉淀的用例库,每次执行自动去重更新。传统用例有半衰期------代码在变但用例没人更新,过一段时间一半用例就过时了。我们让用例库在每次测试执行中自动更新,从根本上消除半衰期
  • Specs: 需求技术方案。它的价值不在当下,在半年后------当你或接手的同事需要改这块代码时,能找到原始的设计意图
  • LLM Wiki: AI 自动维护的项目文档,零维护成本,永远最新。你只管写代码,文档自己跟上来

一切永远最新------知识如何自动流动

六类资产不是静态的档案库。组织的目标是:代码、文档、测试用例、经验、规范------所有知识资产永远是最新的,不需要人手动维护。

怎么做到?靠三条自动流动线:

流动线一

方案-文档流(Spec → 代码 → Wiki)

需求来了,Comate Spec模式先写清楚,代码按 Spec 实现,Wiki 从 Spec自动编译生成。你只管写代码,文档自己跟上来。

流动线二

测试流(执行 → 沉淀 → 回归)

测试跑完了,新用例自动去重、分配编号,沉淀到用例库,下次回归直接取全量用例执行。用例库因为每次执行都在更新, 所以始终是最新的。

流动线三

知识流(经验 ↔ 规范,Layer 2 ↔ Layer 1)

Bug 修了,经验自动记录。同一经验被验证 3 次,晋升为规范;规范 90 天未被引用,降级回经验。知识在层级之间双向流动,形成有新陈代谢的活体系。

知识流中最核心的机制是双向流动------经验不是存了就完事,而是在层级之间有晋升和降级:

做一次开发,六类资产同时增长,资产之间互相反哺------这就是飞轮效应。系统越用越强。

Comate Skill应用实践案例

Case 1:Comate Story 需求开发

基于Comate构建的自我进化DevOps Skill套件, 使用Comate完成需求开发全流程:

视频演示👉mp.weixin.qq.com/s/o_G6Ra5vL...

Case 2:使用Comate Bug 修复全流程

基于Comate构建的自我进化DevOps Skill套件, 在Comate中完成Bug修复全流程:

视频演示👉mp.weixin.qq.com/s/o_G6Ra5vL...

03 左翼:需求自动交付

周日下午你在公园散步,忽然想到一个功能优化点,掏出手机说了一段话。半小时后收到消息------需求质检通过、代码开发完成、测试验证通过,Code Review 已提交。你做的事情只有一件:说了一句需求。 这是系统实际跑出来的结果。

为什么能做到?因为现在的Coding Agent 虽然能写代码、跑测试、做 Review,但本质上仍是单点执行者 ------你要告诉它"现在去开发",做完再说"去跑测试"。管理成本没有消失,只是从"写代码"转移到了"管 AI"。 我们做的事情不同:

关键差异:人从"流程驱动者"变成了"需求提出者"。 三个数字分身------PM(产品经理)、RD(技术)、QA(测试)------通过 iCafe卡片状态协作,全程自动编排:

三个分身之间不直接通信。 唯一的协作枢纽是 iCafe 卡片状态------状态变更本身就是分布式锁,天然幂等,可观测。多个需求同时处于不同阶段并行推进:QA (测试)在测 Story-1,RD (技术)在开发 Story-2,PM (产品经理)在质检 Story-3。

基于Comate构建自我进化需求迭代Skill(包括PM/RD/QA数字分身Skill), 在各阶段闭环验证都做很好的前提下,该场景更适合技术需求或策略需求开发, 涉及PM(产品经理)、UX(用户体验)、RD(技术)、QA(测试)等多人协同评审场景可能不一定适用。

04 右翼:线上自动修复

周五晚上十点,你正准备关电脑。群里弹出一条消息:"线上又误报了。"

你打开日志,定位策略,改配置,跑测试,提评审。抬头一看------凌晨一点。

而这件事,上周也发生过。

这个场景各位应该不陌生。核心问题是修复时差

从问题发生到修复上线,中间大量环节是重复劳动------查日志、定位根因、跑测试、提评审 ------每次都是类似的操作,只是具体策略和触发条件不同。如果能把这些自动化,修复时差可以从一天压缩到分钟级。

团队把它编排成AI可执行的六步闭环:

感知 (定时轮询,最多 60 秒自动认领)→ 诊断 (AI 四分类:确认误报 / 正确拦截 / 边界场景 / 无效采集)→ 方案确认 (置信度分级)→ 修复验证 (改完就验,验不过就重改,最多 5 轮)→ 沉淀 (经验入库+文档进化)→ 提交评审

有一个前提很重要:可观测性是自愈的地基 。AI 能自主定位问题,靠的不是"猜",而是系统把足够的信息暴露给了它------插件日志、对话上下文、用户反馈,每个环节的关键信息都被记录。如果你的系统日志不全、上下文丢失,AI 再聪明也无从下手。

所有修复都由 AI 执行,区别在于要不要人确认:

目前只有左上角(高确定性 + 低复杂度)走自动执行。但关键在于:沉淀阶段的输出反哺后续所有诊断------同类问题再次出现时,AI 直接匹配已有经验,诊断确定性更高,更多场景逐步进入自动执行象限。

Comate Skill应用实践案例

基于Comate构建线上误报问题自愈闭环Skill,线上问题自愈反馈闭环实践详见下面视频:

视频演示👉mp.weixin.qq.com/s/o_G6Ra5vL...

05 结语

回到最初的问题:个人提效了,组织为什么没提效?因为编码只是交付链路的 20%。要让组织提效,需要让每个人来把关的环节都自动闭环,让验证成本通过分层设计大幅降低,让这次踩过的坑下次不会再踩。

核心就两件事:

  1. 闭环验证------保证每一次的质量
  2. 经验累积------保证下一次比这一次更好

两件事相乘,就是持续进化。 这套系统跑起来之后:

  • 同类 Bug 修复从 2 小时 → 15 分钟(经验库直接推荐方案)
  • 新人上手从 2 周 → 1 天(规范和经验自动生效,系统就是最好的mentor)
  • 文档人工维护成本 → (LLM Wiki 自动同步)

双周迭代还是双周迭代?不再是了。 需求从提出到代码合入,已经压缩到天级。不是因为代码写得更快了,而是流程中每个"等人"的环节都被自动闭环替代了。

Comate代替了需求澄清后的方案设计(自动生成Spec技术方案)、代码审查(生成Code Review Skill 自动执行代码规范检查与安全审计)、测试用例生成与执行(质量保障端到端测试Skill自动沉淀用例库)、文档维护(LLM Wiki自动编译Spec文档为项目文档)等原本需要人工把关的环节,让人的角色从"流程驱动者"转变为"需求提出者",大大提升了组织效率。

这套模型不限于上文中的场景------只要你的研发流程有重复环节可编排、有验证标准可度量、有经验可沉淀, 就能套用同样的思路:编排实现自动化,验证保证质量,沉淀驱动进化。


一键更新Comate ,感受AI编程的神奇吧~

更新途径一: 百度搜索"文心快码",官网下载Comate AI IDE最新版;

更新途径二: Comate AI IDE 界面点击 "重启以更新";

更新途径三: VS Code 或者 Jetbrains 系列 IDE 搜索文心快码插件,点击"安装"或"更新"。

如果您(或所在机构)对百度文心快码感兴趣,请扫码联系下方微信~

任何文心快码售前及售后问题

欢迎添加产品顾问咨询

工作时间:工作日10:00-18:00

相关推荐
微信公众号AI创造财富2 小时前
VSC++ xc0150002 是 Visual C++ 运行库缺失导致的?
程序员
hunterandroid2 小时前
Compose 状态管理:remember、rememberSaveable 与状态提升
前端
AskHarries2 小时前
企业微信 / Telegram / WhatsApp 接入
程序员
星栈2 小时前
Dioxus 接数据库最容易写歪的 3 个地方:sqlx + SQLite 怎么接才顺
前端·rust·前端框架
晴虹2 小时前
vue3-scroll-more:横向滚动条-元素或页签过多滚动显示处理的组件
前端·vue.js
代码搬运媛2 小时前
Claude 全栈开发专用 Rules 配置
前端
PedroQue992 小时前
uni-router v1.7.0重磅更新:守卫重定向自由掌控
前端·uni-app
逸铭2 小时前
Day 4:登录与 Token——桌面端怎么存密钥
前端·客户端
溯朢2 小时前
TokUI 流式渲染的 SSE 全链路拆解
前端