组织转型 #AI团队 #FDE

最近在Agent特区做了一次组织转型的分享，讲了我这几个月把一个传统研发团队改成AI Native团队的完整路径。下面是分享的核心内容，后面附了大家讨论比较集中的几个问题。

起点：职能式分工的死穴

我们是一家做标准化产品加定制化交付的ToB公司，我是技术一号位。原来的组织是很传统的职能式分工：销售部签单，产品部写PRD出原型，研发部分前后端和测试。一个需求从客户嘴里到上线，要经过5次交接，每个环节都要排期。

这种模式下，单点效率再快也解决不了整体效率问题。交接本身就是损耗。

三个阶段的组织形态

组织改造经历了两个阶段，还有一个是目标状态。

第一阶段就是刚才过去式职能式分工，已经说过了。

第二阶段是现在已落地的状态：FDE跨职能5人小组。每组一个PM、一个PO、两个TO、一个QO。PM管项目整体和外部协调，同时是个补位角色，哪弱顶哪。PO是需求分析师，把大产品的业务知识转成开发用的feature。两个TO是技术owner，主要监管AI写代码。QO负责全流程测试和质量保障。

这个小组要端到端地完成项目交付：配合销售做售前报价和技术评估，配合产品部做技术分析，到客户现场做需求调研和确认，然后根据实际情况决定是带回公司开发还是现场开发。全程带着AI做，现在的要求是不管开发还是需求，不用自己手写内容，所有东西都是和AI对话产出的。

产品部也有变化。以前产品部是研发的上游，现在缩编了，变成一个大产品经理的概念，管除了销售和交付以外所有产品工作，要求对业务有深入理解。FDE里的PO更偏传统的需求分析师，只做细节设计，不用特别精通业务。FDE部门和产品部之间是内部客户关系，产品部门要下发的东西都需要FDE部门先报价，然后再做详细的需求设计和开发交付。

第三个阶段是我们的目标方向：岗位深度整合。以后不分PM、PO、TO、QO了，大家只有项目Owner，一个人从需求讨论到上线部署，AI是他的另一个"同事"。岗位只有侧重没有分工：以前做前端的，前端部分更复杂的活还是交给他；以前做需求的，复杂业务场景的需求还是他来设计。但边界会越来越模糊。

十一步转型路线

建立信任（第1-4步）

第一步：拿到CEO的背书

这是最重要的一步，没有CEO的背书推不动，就算有，推动起来也比较困难。

我的做法比较直接：给CEO灌输焦虑。我几乎每年12月或1月都要跟他说公司要完蛋了，以前说的理由是业务不行、高管躺平。今年换了说辞：AI时代来了，别人改了成本会比我们低很多（说的也是事实！）。这种话不是一次就够的，吃饭的时候、汇报的时候，逮到机会就说。

他感兴趣以后，给他装工具体验。最早装的是opencode，后来小龙虾出来第一时间给他装上。焦虑灌输到位之后，CEO变得比我还要着急。到这一步，团队转型就顺理成章了。

第二步：让-1层建立体感

这一步的核心是不要让管理层成为转型的阻力。我通常不直接接触一线工程师，他们有自己的+1和+2。

具体做法：周例会上演示AI能力，给大家买账号做环境配置，让管理层用AI解决实际问题。AI使用初期大家会有"AI是神"的错觉，你要趁这个阶段推动他们，让他们在各自团队里渲染气氛、推动使用。

这个过程一定要做好管理。不能安排下去就不管了，要观察有没有管理层对AI反对或不积极，发现了及时沟通处理。

第三步：各种场合渲染AI能力

周会、项目复盘、技术分享，只要有机会就展示AI做了什么、省了多少时间。没有提"转型"两个字，但一直在铺垫。

有个例子：团建路上跟一个前端同事聊AI，他对AI不屑一顾，了解后发现他用的是通义千问的补全插件。吃饭的时候我给他安利claude code和opencode，讲效果讲案例。他饭都不想吃了，着急回去试。给了他我的key，没过两天就自己买了智谱的模型开始研究工作流。

我做这个事情的时候，AI还没有像现在这样如火如荼。假设你的团队现在已经对AI不存在不信任问题了，这步可以跳过。

第四步：搭Harness工程

早期比较耗精力的部分。需求怎么拆、feature怎么分、设计怎么做、代码怎么生成、变更怎么管，全部流程化。这套流程要适应你自己的团队，因为团队要靠这套流程和产物来协作，只有标准化的流程和产物才能让团队相互协作。

Harness不是一次成型的，是在工作中迭代出来的。我们搭了一套完整的目录结构：01需求澄清、02 PRD、03架构、04项目级进度管理、05 feature级别（包含需求规格、接口设计、数据库设计、开发计划、代码评审）、06原型、07测试。所有项目都按这套结构来。

配套的有四套角色、29个技能：产品8个、技术12个、质量6个、项目管理3个（PM进度管理、FM进度管理、监理技能做门禁扫描）。

验证推广（第5-8步）

第五步：选试点项目一，跑新项目

选一个没有历史包袱的新项目，体量不要太大也不要太小。太小体现不了能力，太大失败了承受不了。选的人精力不要被其他事干扰，必须全身心投入。

模式是1个PM加4个FDE。具体做法是找了个会议室集中办公，我全程参与但不介入具体开发，更像一个AI教练的角色。验证周期跑了两个多月快三个月。

核心目标两个：验证以前八九个人才能完成的项目，5个人带着AI到底能不能做出来，做出来的东西质量怎么样；同时让试点小组学会带AI做交付，学会Harness的调整和项目规约的设计。

第六步：试点项目一跑到一半，启动试点项目二

第一个项目磕磕绊绊但跑完问题不大的时候，直接启动第二个试点。第二个项目选了一个棕地项目：有历史代码、有历史数据、有真实客户在用，做二期。主要测试新模式在老项目上的兼容性。

这个项目暴露的问题就多了。需求文档、代码文档、数据库文档都有，但都不完整，和代码匹配不上。不能按老文档让AI分析生成新代码，因为老文档本身就是错的。在这个过程里又补了一些skill和流程，花了更多时间补充项目规约。

两个试点并行跑的时候，出现的问题会急剧增加。但这正是你要的：在可控范围内把问题都踩一遍。

第七步：持续改进Harness

试点过程中Harness每天都在修。今天变更管理没覆盖到，明天测试用例生成太慢，后天换了模型版本之前的prompt不工作了。流程改进是持续动作，不是一次性交付。

举个例子：最开始我的流程是先写PRD再画原型，实操发现根本行不通。跟用户第一天聊出一部分功能，第二天又聊出一部分，但你每天不能光聊不产出。产出什么？原型。拿着原型和用户聊。这个时候没法出PRD，因为还没聊完。所以加了一套需求澄清的技能来做前期调研。

再比如：一开始不同人用了不同模型（智谱、Kimi、MiniMax、GPT），同一套流程在不同模型上可用程度差异很大。只能针对不同模型逐个优化调试，让Harness适配模型。专门找了一个人来做这件事，避免每个团队自己摸索。

第八步：准备培训体系

PO、TO、QO的上岗培训，Harness使用培训，AI基础培训。因为从传统职能团队转过来，有些人是转岗的：开发多、需求和测试少，转型后开发要往中间收，涉及到转岗和新招。

培训分两部分：一部分是Harness从试点中发现的问题持续迭代更新，另一部分是基础知识。内容包括FDE的认知培训、PM专项培训、需求/质量owner的项目结构和工程规范培训。

培训的建议是持续做、一直做。以前鼓励团队分享比较费时费力，现在有了AI，把脑子里的东西讲出来就行，不用自己做PPT，AI帮你做。这给持续培训提供了一个可行的基础。

正式切换（第9-11步）

第九步：历史工作交接

这一步和每个公司自己的情况强相关，千差万别。我们作为产品加定制化交付的ToB公司，面对不同客户各有各的版本在维护。有的项目在研发中，有的在运维中。以前一个团队八九个人甚至十来个人，现在每个团队5个人，老项目和新团队怎么匹配？项目跟着PM走还是跟着研发走？一个项目好几个研发分到不同的FDE里怎么拆？交接过程怎么保证不出大问题？

这些事情比较复杂，只有一个通用建议：根据自己实际情况出方案，同时心里要知道一定会出问题，要能接受出现问题。

我们这边做了大概交接调整了一个半月。核心原则是老项目原班人马维护、跟着研发人员走，新项目用新模式，不会强行切。做之前先给客户打好招呼，出了问题客户有预期就不会有太大反应。

第十步：组织正式调整

两个试点项目都收尾后，分别做了详细复盘，整理所有问题，做了一波流程和skill的改动，补充了培训。到这个时候成立新部门就顺理成章了。

具体动作就是发通知、调座位。但光行政命令不够，做了两件事：让新的PM和自己新的团队成员做一对一沟通；我本人也对每个人做了一对一沟通，确认岗位情况、转岗适应度、有没有顾虑和期望，做针对性解决。

第十一步：按新组织持续运转

搭了Token分发平台做统一管理，监控谁用得太少、哪些FDE团队Token消耗过低。发现这种情况主动干预和沟通，让它们尽快用起来。给用得多的做奖励，但不能提前通知有奖励，也不能反复奖励。用Token衡量工作本身不太合理，只是初期用来判断谁对AI不熟，做人为干预。

新小组启动了陪跑机制，每周找时间和各小组交流半小时到一小时，了解问题、解决问题。绩效也重新设计了，每个公司做法不同就不展开。最后还是Harness的持续改进，每个小组交付完都做复盘，看有没有新的想法可以在公司范围内优化。

踩过的坑

坑1：多人协作比单人难十倍

单人用AI写代码很流畅，多人协作问题全暴露：变更怎么管、工作怎么同步。以前的节奏是开晨会对接工作，AI提速后半天就能产生比以前大得多的工作量，晨会根本跟不上。

目前的解法是缩小组织粒度，从条状变块状。每个项目人很少，坐到一起转身就能沟通，很多问题当面解决。但这只解决了沟通这一个层面，多人协作在AI时代的最佳实践，还需要在持续实践中探索。

坑2：AI不稳定，要持续迭代

换了模型，同一套skill同一个prompt，在Kimi和智谱上表现完全不一样，差距很大。Harness工程要反过来适配模型，按模型特性逐个调整。专门找了一个人来做这件事，避免不同团队各自摸索。

坑3：开发快了，质量掉了

这个问题到现在也没有完全解决。

初期的判断是：以前不做TDD、没有集成测试、没有E2E，全靠人工测试加简单的mock。AI来了以后，TDD、mock测试、集成测试、E2E全都能低成本做，理论上质量应该飞跃式提升。

实际上没有。该做的都做了，TDD、Mock测试、集成测试、E2E测试，甚至文档测试全都上了，质量还是不如预期。单人使用时问题不大，多人协作时质量波动明显。

关键发现是：bug类型变了。AI编码会产生自己特定类型的bug，和手工编程出的bug类型差距很大，等于换了一波新类型的bug。

具体分布上，功能遗漏和功能不一致成了占比最大的问题。这些功能在feature规格文档里都写了，但实际代码出来要么漏了，要么细节和feature对不上。古法编程时期这类问题占比很小，大概3-5%，AI编码后变得严重。原因和大模型本身的能力有关，也和Harness门禁检查不到位有关。

UI不一致是另一个难点。AI无法检查页面，生成的页面和预期差距大，加上大部分页面没有设计稿。早期没有专门给AI用的设计系统，自己编写UI规约效果不理想，后来尝试Design.md形式，效果稍好但仍无法根治。

反过来，以前占比最高的功能逻辑和体验优化问题，在AI编码时反而少了很多。从严重程度看，重要和核心的bug其实很少，一般性问题占比高。

目前没有完美的质量方案。人工测试又拉回来了，给自动化兜底。AI生成代码快，但判断功能对不对还得靠人，否则上线风险很大。

坑4：测试用例过度冗余

不管做业务feature还是做测试用例，都遇到了类似的问题。以前人工写测试用例，写得没这么细但能覆盖住。AI写测试用例以后，一个简单功能能生成五六十条，其中三十条可能是冗余的。

具体例子：一个表单100个字段，AI给每个字段生成三条用例（加一、减一、标准值），100个字段加起来400条。逻辑上没毛病，但让人去测这些实在冗余。

另一个例子是AI过度设计：一个删除的二次确认弹框，正常写提示语固定就行。AI偏要在这个弹框里加业务逻辑，找出这条数据关联的所有数据列出来。设计本身没错，但过度设计了。

优化过skill，改了四五轮，效果有限。约束收太紧会漏用例，放太自由又过度设计。目前的平衡点是AI生成初稿后靠人工精简，保留核心路径和边界值用例。

坑5：人不信任AI形成恶性循环

初期有人提示词写得不好或上下文给不够，产物质量差，于是更不信任AI，更不愿意用，产出更差，形成恶性循环。发现这种情况只能一对一纠偏，坐过去教。信任建立之前，AI工具对他就是摆设。

坑6：Harness依赖人的能力

实习生用AI做单点登录，踩了一堆坑：看不懂feature文档，看不懂model和API文档，AI给什么就用什么，没有判断力。说明Harness是放大器，替代不了基本功，要安排能力匹配的人做对应的事。

坑7：培训要持续做

有人上班打开一个会话一直用到下班，完全没有上下文管理。上下文管理这些内容其实培训过，但并没有真正学会。培训要持续做、反复做，每个月复盘使用习惯，发现新问题及时纠偏。

另外AI工具的使用方式一直在变，培训内容也得跟着变。比如最早推荐用opencode，后来claude code用多了觉得也不错，又在公司推claude code。工具迭代了，培训就得同步更新。

三个还没解决的问题

一是质量怎么靠AI短时间提高。目前靠人兜底，但代码生成速度太快，人盯不过来。这不是长期方案。

二是项目周期和报价怎么预估。单个功能可能快了5倍，但整体项目周期只快了2倍，因为协作和返工的时间你没法精确计算。

三是多人协作下的Feature变更怎么管，才能让岗位间协作更清晰。

问答精选

分享结束后大家讨论了很久，挑几个讨论最多和比较重要的问题整理在下面。

Q：转型后效率到底提高了多少？

A：单个功能大概快了5倍，但整体项目交付周期只快了2倍。卡点在协作和返工。你感觉单个功能做完了，隔半个月测试发现漏了东西，回去改的时间也要算到项目周期里。加了feature检查环节也解决不了这个问题，因为开发和检查是两个时间节点的事。

两个试点项目都跑了，新项目和棕地项目效率提升差不太多。虽然棕地项目要花时间整理老代码的规约，但一个星期就够了，对整体项目周期影响不大。

Q：转岗成功率怎么样？

A：大约10%的人被淘汰掉了。其中一部分是意愿特别低，怎么聊都不用；另一部分是转岗后又裁掉的。开发转测试裁得最多，原因是习惯和意愿都不太行，开发转岗到PO（需求设计）的接受度反而比较高。

Q：前后端分工怎么处理？

A：现在不分前后端了，但工作分配有侧重。流程是先有feature规格说明书，然后带着AI生成API文档和数据库文档，这三个作为输入给到工作流生成开发计划，计划里前后端文件都在里面，一次性把前后端全写了。先写测试用例再写代码，编译不通过就打回去让agent重新改，通过以后跑TDD，再跑代码评审2-3轮，最后自动提交。关键是不存在前后端交接问题，因为提前做好了接口契约。

Q：代码Review还做吗？

A：代码层面基本不做了，因为AI生成太快查不过来。文档层面做，重点是feature规格文档、技术feature文档、接口设计和数据库设计。代码评审是在开发过程中由agent自动做的，不是事后人工review。

Q：Bug率变化了？

A：bug率提高了大概60%。但bug类型完全不同了。古法编程时功能逻辑和体验优化问题占比最大，现在占比最大的是功能遗漏和UI不一致。逻辑问题反而少了。从严重程度看，重要和核心的bug其实很少，一般性问题特别多。

Q：用的什么模型？

A：主要是智谱的GLM-5.1和Kimi 2.6。体感上智谱比Kimi好一些。国产模型在coding场景已经够用了，更重的工作在Harness工程上，只要模型不是特别拉胯，Harness做得好就行。用过Claude但买不到稳定账号，被封了两次就放弃了。

Q：全自动化行不行？

A：试过。用go模式批量生成所有功能的需求、设计、代码，结果全是问题，天天都在用bug调试技能改。现阶段模型能力（至少国内模型）还到不了交给人就不用管的程度，中间必须有人去干预和检查。另外自动化程度越高，人对项目的理解就越浅，出了问题没人负责。所以流程中有一部分是自动化的（开发环节），但需求和需求产物交给开发、开发产物交给测试，这些环节还是人来驱动。

Q：AI写代码但人不了解细节怎么办？

A：代码不是人写的，确实很多细节不清楚。我们的做法是合并回主干之前，让AI把整个功能流程串一遍，了解脉络就行，不用去看具体代码实现。另外遇到探索性的技术方案问题，可以让AI生成多个方案对比测试。有个同事用AI写算法，性能不好，跟AI交流出四套方案，半小时全部生成完，统一输入输出只变算法，四套都跑了一遍选出效率最高的。

组织转型实录——我把传统研发团队改成AI驱动，踩了无数坑