提升组织级AI Coding质量：电商搜索项目实践

导读

AI Coding时代，质量管理的核心从"是否管"转向"如何管"。 过去关注"能不能生成代码"，现在更关键的问题变成：生成得快，是否也交付得稳？

从现状看，Coding Agent 渗透率、代码采纳率和使用频次持续提升，说明 AI Coding 不再是辅助尝鲜，而是在真实研发中承担生产力角色 。但使用越深入，痛点也越清晰：质量不可控、过程不可见、审查无标准、协作不闭环。 这背后的本质矛盾是：人类意图往往是模糊的，而代码执行必须是确定的。

一、AI Coding质量命题分析

对比传统软件工程在范围、时间、成本之间做取舍，AI Coding 时代，新的核心三角变成了代码生成效率、线上稳定性和交付周期。 AI提升了编码速度，但风险并不会消失，而是转移到了测试、评审和运维环节。 因此，AI Coding的重点不只是"生成更多代码"，而是建立一套可治理的质量体系。

Harness工程通过输入约束、生成约束、输出约束，把上下文、标准、观测、版本和数据集沉淀下来，让AI生成过程可控、可查、可复盘。成熟的AI Coding 应该实现三件事：提升生成效率，降低线上风险，缩短价值交付周期。 它不是简单替代研发，而是把研发能力从个人经验，升级为可沉淀、可度量、可持续优化的工程体系。

百度电商部门现在的研发工作中，80%的新增代码（包含说明文档）是 AI 生成的，质量已经不是"要不要管"，是"怎么管才管得住"。

百度电商部门2026.4 vs 2026.01 AI Coding使用数据对比

当前，研发与测试的协作目标对齐为 "让AI代码安全上线"， 协作模式从线性交接升级为闭环共建，测试左移至标准制定阶段， 研发输出标准化Spec，共同实现测试效率提升与交付质量保障。

下文中三类项目实践表明，该方法能显著压缩开发周期、提升异常发现速度、增强系统可维护性， 为组织级AI Coding质量管控提供了可行路径。

二、研发和测试新协作模式

🔔核心结论

Harness工程用于把AI生成过程纳入统一认知框架：Agent=Harness+LLM，质量由输入、生成、输出三层约束共同保障。 通过研发定义边界、测试定义标准、共建资产沉淀，实现AI研发高质量、可视化、可持续落地。

通过输入、生成、输出三层约束，AI研发从"能生成"走向"可治理"。Harness工程 负责沉淀上下文、策略、观测、版本和数据集，全栈能力打通业务、平台与交付链路，最终提升AI代码质量与工程落地效率。

研发和测试新协作模式

三、三种不同类型项目实践案例

为了验证 AI Coding 在真实研发中的落地效果，我们按项目复杂度递进选取了三类实践：品牌卡优化、榜单自动化生产、穿搭助手， 三者分别对应传统迭代、架构改造和 Agent 系统建设。

这三类项目的共同底座是 Harness 工程与全栈能力， 差异在于协作重点不同：品牌卡更强调快速理解业务和跨栈交付；榜单更关注架构标准化和批量生产；穿搭助手则进入 Agent 化协作，对上下文、记忆、Trace 和评测提出更高要求。

🔔

这组实践不是简单验证"AI 能不能写代码"，而是回答一个更真实的问题：当 AI Coding 进入研发主流程后，如何把局部提效变成稳定交付？

三类实践需求概览：

3.1 传统产研项目：品牌卡迭代

🔔High light

老人接新业务：4代码库 / 3技术栈（Go/Python/Vue）/ 1人全栈 → 技术评审时已完成研发50%+ ，整体周期减少30%+。

3.1.1项目背景

品牌卡内循环商家入驻项目涉及在线、离线、运营平台等 4 个代码库，覆盖 Go、Python、Vue 3 类技术栈，由 1 人承担全栈交付。传统模式下，前几天通常消耗在熟悉业务、找人确认链路、理解数据来源上。

「品牌卡迭代」产品需求描述

3.1.2 核心解法：Harness三件套 + 全栈 + 平台化

通过AI Coding提效，该项目在整体技术调研、开发、联调阶段时间周期由10人/天降低至 4人/天。

Comate开发流程：

🔔Comate核心价值

在业务熟悉阶段，传统模式需要阅读历史文档、咨询相关同学、逐步摸清数据链路，通常需要 1-2 天。通过 Comate，一轮 Prompt 即可完成代码库结构梳理、数据来源解析、数据流转图生成和核心业务逻辑提炼，时间压缩到 3小时，提效约 50%。

在需求调研和技术设计阶段，Comate 的价值不只是"写文档"，而是把 Spec、流程图、接口定义、输入输出、配置平台 Demo 等内容前置生成。 产品形态调整时，研发不再需要反复推倒重来，而是基于AI 结果快速修订，降低沟通和返工成本。

在开发阶段，基础流程代码已由 AI 自动生成约 50%，研发主要聚焦个性化逻辑、外部接口、自测和 Code Review，开发周期从 4-5 天压缩到 2 天。

Comate进行框架内容理解并输出技术详细设计方案⬇️⬇️

前后端代码变更⬇️⬇️

3.1.3 研发&智能测试协同

AI Coding 提效不能只看研发侧，还要看测试和交付质量是否同步提升。 本次项目中，研发与测试围绕需求理解、Spec 前置评审、AI 辅助 Case 生成、Bug 定位和边界验证形成协同闭环。尤其在阿拉丁卡片这类长流程业务中，搜索链路复杂，问题常常不是"代码写没写"，而是"为什么不出卡"。通过标准化 Spec、AI 生成测试 Case、辅助定位边界问题，测试从后置验证变成前置参与。

最终，原计划 3 天的服务端测试任务，用 1.5 天完成，测试周期压缩约 50%。这说明 AI Coding 的真正价值，不只是让研发更快写代码，而是让研发、测试、评审和交付共同进入更高效的工程闭环。

测试基于spec模式生成测试用例

3.1.4 关键洞察

业务熟悉从天级压到小时级， 意味着团队对插入需求和陌生方向的承接能力变强了。

🔔变化本质

以前先写方案等产品确认再开发；现在边调研边开发，拿着实际跑起来的Demo去对齐，需求澄清来回次数明显减少。

3.2 架构改造项目：榜单自动化

🔔High light

1名研发 × 6 周 → 完整数据生产 & 评估流程打通；涉及 8 代码库 / 3 技术栈、13 算子； 含在线/离线/评估/算子多技术栈系统。

如果说品牌卡解决的是"陌生业务如何快速接住"，榜单自动化解决的就是 "复杂链路如何系统性改造"。 榜单原本依赖策略人工评估、Excel 交付、多轮审核和手动入库。随着数据规模达到 1W+ 商品榜单，人工链路很容易出现格式错误、异常发现滞后、排查成本高等问题。

3.2.1项目痛点

原流程：策略+人工线下评估 → 平台入库上线。数据流跨 4 层存储（content-platform → rank-strategy → ecbase → SNDB），全链路靠人串。

实际效果⬇️⬇️

eflow算子平台

🔔 Comate核心价值

在本项目中，Comate 的作用不只是生成代码，而是通过工作区的多代码仓库加载模式，帮助团队快速理解 8 个代码库、3 类技术栈和 13 个关键算子的协作关系。

研发基于 Harness 约束，将流程拆成可版本化、可观测、可回滚的工程单元，并通过 TDD 模式补齐 unit、itp、e2e 等测试任务。改造后，流程从"人工 Excel + 手动脚本"升级为 "平台任务 + 算子生产 + 自动聚合 + 自动同步"。 人工评估投入下降约 70%，全量更新从 1 个月缩短到 0.5 个月，异常定位从小时级进入分钟级。

Comate帮助团队把复杂生产链路拆解成标准化算子，让研发从"人肉推进"转向"系统治理"。

Comate开发流程：

使用工作区模式， 提供更多、更准确的上下文给大模型，先统一沉淀各模块系统wiki , 然后产出设计文档，进行整体Review。

Comate测试流程：

TDD驱动，包含 unit / itp / e2e 多种测试任务

3.3 Agent项目：穿搭助手

🔔

Agent项目最能体现研发/测试协作的本质变化， 且涉及完整工程闭环。

穿搭助手进一步进入 Agent 系统建设阶段。它不仅要交付业务能力，还要建设对话引擎、上下文压缩、双层记忆、风控、Trace、评测、Prompt 版本管理和数据集管理等平台能力。传统模式下，这类项目通常需要 4 人以上、2-3 个月推进。本次由 3 名核心工程同学协作，1.5 个月完成从 0 到 1 交付。

3.3.1 研发阶段→ 4项平台能力

🔔 核心理念

好的Agent 是不断迭代、评估出来的；可观测、可追踪至关重要。传统的中台 Agent 平台业务适配差，自己造轮子在模型+harness 工程成熟的今天，成本已经很低。

更重要的是，项目补齐了 4 项平台化能力：全链路 Trace、对话评估、Prompt 版本管理、数据集管理。Agent 的问题不再靠"感觉调参"，而是可以被记录、评估、对比和回归。调研期间同时完成项目Demo编写（前后端、可交互的原型），技术方案详细设计时直接使用主对话Agent的实际工程效果进行评审；

Comate开发流程：

🔔 Comate核心价值

在调研阶段，Comate 辅助完成 Demo 编写，让技术评审不再只看方案文档，而是直接基于真实跑通的 Agent 效果进行评审。在开发阶段，Comate 辅助定位链路问题、调整 Prompt、补齐工程代码和测试逻辑，让主 Agent 同学可以同时覆盖业务与平台能力。

Comate 让 Agent 项目从"能跑一个 Demo"，走向"可观测、可评估、可持续迭代"的工程系统。

需求理解与代码定位：

Comate 能将自然语言需求转化为代码改造任务，自动阅读相关模板、后端接口和页面状态参数，快速定位修改位置，并给出实现路径。

复杂业务链路分析：

面对穿搭助手中的多轮对话和方案匹配问题，Comate 能结合业务文档、工具调用链路和代码实现，分析问题根因，辅助研发判断修改边界。

代码改造与方案落地：

Comate 不仅能分析问题，还能基于既定方案直接修改代码，完成分支逻辑调整、结果过滤、兼容处理等实现，提升开发落地效率

3.3.2 智能测试

🔔 核心理念

人定义标准，AI 执行验证 ------把"经验驱动的人工判断"变为 "规则驱动的 AI 自动校验"。

AI智能测试

AI智能测试实践

交付-智能测试
痛点· 信息分散，协同低效： 需求、进展、文档散落多个系统，项目成员无法快速获取全貌，频繁跨平台切换耗费大量时间· 进展同步全靠手动：日报依赖人工收集汇总，信息滞后、遗漏风险高痛点· 需求与项目割裂：需求卡片与项目群缺乏关联，无法快速溯源需求进展状态
方案· 建设交付AI测试，将项目关键信息整合到侧边栏进行统一展示，自动统计项目进度并发送项目进展日报

效果示例

四、研发、测试协作认知沉淀

三个项目串起来，可以看到 AI Coding 的价值正在从"代码生成提效"走向"工程质量升级"。 品牌卡通过Comate降低陌生业务上手成本；榜单自动化通过Comate支撑复杂链路的架构治理；穿搭助手使用Comate参与 Agent 系统从调研、开发、评测到交付的完整闭环。

最终沉淀下来一套新协作模式：生成前定义标准，生成中实时管控，生成后复盘沉淀。 研发、测试和产品不再围绕"谁来找问题"协作，而是共同围绕"如何让 AI 生成的代码安全上线"，进行密切而高效的协作。

一键更新Comate ，感受AI编程的神奇吧～

更新途径一： 百度搜索"文心快码"，官网下载Comate AI IDE最新版；

更新途径二： Comate AI IDE 界面点击 "重启以更新"；

更新途径三： VS Code 或者 Jetbrains 系列 IDE 搜索文心快码插件，点击"安装"或"更新"。

如果您（或所在机构）对百度文心快码感兴趣，请扫码联系下方微信～

任何文心快码售前及售后问题

欢迎添加产品顾问咨询

工作时间：工作日10:00-18:00