和AI一起搞事情#3:Claude Teammate 游戏开发翻车实录

这一章我们会解锁 Claude 的 teammate 模式 ,尝试开发一款 AI-oriented + 中医学习小游戏

在遍地都是"成功学"的今天,第一版游戏更像是大型事故现场>_<,本文分两部分:

  • Teammate 模式的开发流程回顾与技术解析
  • Teammate 模式踩坑指南:尤其针对国内模型,部分问题未必适用于 Claude 官方模型

一句话总结:不是AI不强大而是我和AI作为两个完全不相似的灵魂,从头到尾都没有拉齐过世界观。

"AI时代每个人都是一个团队"吗?

经过这一期做游戏的尝试我的观点是"分情况,别激动", 在以下两个场景,AI能给你带来无得价值

  • 吃过猪肉(技能增强):我是搞算法的,所以围绕算法站的的场景,从产品到设计到算法到前后端,甚至运营和测试,有AI加持,我能全链路操作,如鱼得水。
  • 看过猪跑(目标极度具象):比如你没做过动画,但你对"我想要什么效果"已经能在脑海里很清楚地构建出来。目标可描述、效果可感知,差距可衡量。那跨界只会带来不被传统局限的无穷创意。

哈哈但做游戏,我纯属是脑袋一热,小时候没咋玩过游戏,那咱直接跳过玩游戏来做个游戏呗,所以我属于及没吃过猪肉也没见过猪跑,于是这里就埋下了灾难的种子。

step1. 澄清需求

说实话,一开始我也不知道我要做个啥游戏。

我给模型的需求大概是:"我想做一个 AI-oriented 的中医学习游戏。"

我开启了 /plan 模式,大致提了需求,然后------完全放手让AI去做了。

事实证明,这是一切灾难的开始。这里必须敲黑板:

对于有一定复杂度的项目,写代码并不是最核心的部分,澄清需求才是。

需求要澄清到什么程度?至少要做到:

  • 开发提不出异议
  • 设计提不出异议
  • 测试知道怎么验收
  • 最关键的是:你自己知道你到底想要什么

否则后面所有"高效开发",本质上都是:高效地朝错误方向狂奔。 事实证明,楼歪得太狠的时候,是无法扶正的

step2. 开始组队

终于轮到"一个人拥有一个AI团队"的梦幻环节了

为了提高项目进度,我开启了 Claude 的 teammate 模式,设置了三个角色:

  • 前端开发:负责写代码
  • 设计师:负责页面设计和药材/饮片内容绘制
  • 数据工程师:负责游戏药物相关的数据 schema

在我当时的想象里,这三位同事应该是:边界清晰、分工明确、各司其职、高效协同

而从结果回溯,当需求文档本身充满漏洞时,早在他们写下各自技术细分文档时,楼就已经歪了。

Teammate 适合什么场景?

我目前觉得,它的前提是:多Agent之间必须基本独立工作,边界非常清晰。

适合的情况大概有两种:

  1. 要的就是不同:在以下场景下,差异本身就是价值。
  • 从不同角度分析同一个问题
  • 基于不同假设同时做实验
  • 多方案并行探索
  1. 分工真的很明确:在以下场景下,团队写作才有提效空间
  • 采集不同类型的数据
  • 不同工种处理完全不同模块
  • 前后依赖少,冲突少

整体上,我现在对 teammate 的判断是:它更擅长提效,不太擅长提质。

我目前觉得,它的前提是:多Agent之间必须基本独立工作,边界非常清晰。 适合的情况有两种:

  1. 差异本身就是价值
  • 从不同角度分析同一个问题
  • 基于不同假设同时做实验
  • 多方案并行探索
  1. 分工明确切边界清晰
  • 采集不同类型的数据
  • 不同工种处理完全不同模块
  • 前后依赖少,冲突少

整体上,我现在对 teammate 的判断是:它更擅长提效,不太擅长提质。

Teammate 模式是怎么工作的?

Claude 的 teammate 模式目前还是 beta,需要在项目配置中增加以下变量:

json 复制代码
{
  "env": {
    "CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS": "1"
  }
}

整个工作流大致是这样的:

  1. TeamCreate:创建团队,其实就是同时创建多个subagent,并为每个智能体设定角色,职责,任务命令(必要上下文)

创建后,你可以在:./claude/teams/团队名称/config.json里看到所有队员的配置和指令。

  1. TaskCreate:拆任务

这一步就是plan的具象化升级版工具,但更进一步:它会把任务拆成任务列表。这里面既包含:

  • 可以并行执行的任务
  • 也包含必须串行推进的任务

而具体任务之间有没有依赖、谁先做谁后做,主要由 Team Leader 来判断和分配。

  1. Task:启动任务,其实是subagent的启动工具,用于告知某个子智能体开始执行对应任务。

看Claude刚开源的代码,Task其实是todo系列的一整个套件,整个触发链路如下

  1. Message & MailBox:多个独立智能体通过信箱互相通信,和 Team Leader 汇报情况。
  • 子Agent可以互相发消息
  • 子Agent可以向Leader汇报
  • Leader也可以广播状态检查或任务通知

step3. AI端到端测试

真正难的不是开发,而是测试

AI开发最核心的部分,真的不是开发,而是测试。决定一个项目短期内能不能成功的关键,是你能不能把这条链路跑通:

AI写代码 → AI测试 → AI拿反馈 → AI继续优化
真正难的不是开发,而是测试

AI开发最核心的部分,真的不是开发,而是测试。决定一个项目短期内能不能成功的关键,是你能不能把这条链路跑通:AI写代码 → AI测试 → AI拿反馈 → AI继续优化

对于游戏这种东西,如果靠人手工验收,那简直是灾难,所以我设计了一套 AI 端到端测试流程:

  • 前后端基础回归测试
  • Playwright 功能测试
  • AI 多模态模型视觉测试

并生成统一报告reports/AI端到端游戏测试报告.md

经过一夜五花八门的报错与修复,我们终于得到了近乎 100% 的测试通过报告:

看到这里,我当时心情大概是:"稳了,这波成了。"结果打开实际游戏一看,血压都飙到150。得就是下面看似花里胡哨,实际毫无策略的游戏成果

哈哈后续我尝试挽大厦于将倾,我质疑AI游戏的可玩性,学习的系统性,经过了长达一天的反反复复,AI又重构了一版加入了一堆可有可无的游戏进去,结果变成了下面这种复古拼凑游戏风。

我才终于意识到,这不是技术问题,这是产品问题,是定位问题,不是重构可以解决的,是需要重新从0开始设计才能解决的问题!

还好AI时代推到重来并不需要太大的勇气,但下周再说吧,我需要一点时间重新先想清楚,我理想中的AI-oriented的中医小游戏究竟是什么样的,从先去玩个游戏开始吧~

Claude Code经验获取

CLAUDE.md很重要请及时更新

尤其在 teammate 模式下,这个问题会被放大。

虽然子智能体拥有整个项目文件,但它真正稳定能拿到的上文其实很有限。很多时候,它主要依赖的就是:

  • 主Agent分配给它的那一条任务指令
  • 项目级别的 CLAUDE.md

问题来了:你永远无法保证一条任务指令里,包含了这个子Agent所需的全部上下文。

所以在有限上下文前提下,CLAUDE.md 基本就是项目公共宪法。

中间最严重的一次雪崩,是因为我更新了 v2 设计方案,但没有同步更新 CLAUDE.md

结果是什么?teammate 收到了新任务,但实际开发时引用的是旧设计文档,最后整个开发出现版本认知错乱。所以敲黑板

任何最新的技术细节、项目设计、交互规范,只要对子Agent重要,就必须进入 CLAUDE.md 或其引用链。

需求再怎么讨论都不为过

看到最终那个"惊为天人"的游戏效果后,我开始复盘。

结果发现:

  • 开发本身其实未必有大问题
  • 测试链路也跑起来了
  • 真正从源头就呵呵的,是需求文档

也就是说,这次项目并不是"代码写崩了",而更像是:

团队非常认真地实现了一个Leader自己都没想清楚的东西。

所以我开始怀疑,需求澄清的正确方式可能根本不是"我来告诉AI我要什么",而是:

让模型反复、结构化地向我提问。

通过一轮轮追问,把需求中的每一个模糊处抠出来,逐渐明确:

  • 用户是谁
  • 核心玩法是什么
  • 学习目标是什么
  • 反馈机制是什么
  • 什么叫"好玩"
  • 什么叫"有效学习"

这其实比直接开始写代码重要太多。

有没有现成方案?

有。下一篇会聊 Claude 的另一套组合拳,比如:

  • brainstorming
  • writing-plans
  • execute-plans

看起来会比我这次"边做边悟道"的方式靠谱很多。当然,那得留给这个游戏的 v2 版本了。

Claude Teammate踩坑

如何使用国内模型

我用的是阿里的Claude接口,模型用的是kimi-k2.5,哈哈当然是因为国外模型用不起,才追求国内模型的性价比。

但在teammate模式上出现了很多问题,因为teammate新建的agent并不继承主智能体的模型配置,而是会默认选择Anthropic官方的opus等模型,导致teammate初始化失败。

可以通过配置以下系统变量把模型都指向国内模型

ini 复制代码
export ANTHROPIC_MODEL=glm-5
export ANTHROPIC_DEFAULT_OPUS_MODEL=glm-5
export ANTHROPIC_DEFAULT_SONNET_MODEL=glm-5
export ANTHROPIC_DEFAULT_HAIKU_MODEL=glm-5
export CLAUDE_CODE_SUBAGENT_MODEL=glm-5

/resume无法恢复对话

这个锅有一半得我自己背,因为我没认真看官方文档。

官方写得挺清楚: 在当前 teammate 模式下,如果队友任务没执行完,你退出会话后,/resume 无法恢复

但实际体验中,问题不只是"无法恢复"这么简单,而是会出现一些非常魔幻的状态同步问题:

  • 队友配置还在,但 Team Leader 无法继续指派任务
  • 队友配置已经删了,但 Team Leader 还在给一个不存在的人派活
  • 有时候像恢复了一半,有时候像根本没恢复,有时候像在闹鬼

总之,目前看起来,子进程状态同步还是有优化空间的

队员可能忘记汇报任务已完成

这个问题我中间遇到过很多次。表现形式是:项目看起来卡住了,没报错,没新输出,Leader也不继续推进

仔细一看才发现:子Agent做完了任务,但没向 Leader 汇报,而 Leader 也没主动 broadcast 去问进度。 于是两边就这么尬住了。

我怀疑这和上下文过长、指令注意力稀释有关。尤其任务推进到后期时,teammate 相关的协作指令更容易被冲淡。

teammate贵精不贵多

我不太推荐让AI自己构建团队。因为它很容易一兴奋就给你造出一堆队员,仿佛下一秒就要上市敲钟。

我中间就试过一次让AI自主创建团队。结果它直接给我整了 12个人 。你想想,12个Agent一起开发1000行代码,这件事本身就已经很有喜剧效果了。

结果当然是:

  • 任务拆得过细
  • 每个Agent上下文都不充分
  • 沟通链路又长又脆
  • 最后代码到处冲突

整体效果非常稀碎,问题修了一晚上,越修越像行为艺术。最后我直接:解散团队,回滚版本,假装这事没发生过。

所以当前阶段,我更推荐:人工决定团队规模和角色分配。 小团队、强边界、少沟通,往往比"AI自己组建复仇者联盟"靠谱得多。

写在最后

虽然这次项目翻车了,但也不是完全白忙活。至少我更清楚了三件事:

  1. 复杂项目里,需求远比代码重要

代码错了还能修,方向错了只会越做越偏。 需求错了如何在最开始发现呢?这个我已经有了思路,正在尝试。

  1. AI测试能验证"通不通",但不一定能验证"值不值得"

功能通过 ≠ 产品成立。

测试全绿 ≠ 用户会玩。 价值层面如何提供有效的检测呢?我还没想到

  1. 多Agent协作最怕的不是能力不够,而是认知不一致

当目标模糊、文档不统一、上下文不完整时,多人协作不会加速,只会把错误放大。

相关推荐
一个帅气昵称啊2 小时前
.NET + AI 进阶实战:基于类的技能开发 - 打造可治理的 Agent 能力模块
人工智能·ai·.net
Rubin智造社2 小时前
04月13日AI每日参考:Anthropic高危模型限流,中国每日处理140万亿Token
人工智能·anthropic·claude mythos·ai每日参考·apple智能眼镜·华为昇腾·aigc监管
东坡肘子2 小时前
被 Vibe 摧毁的版权壁垒,与开发者的新护城河 -- 肘子的 Swift 周报 #131
人工智能·swiftui·swift
AI袋鼠帝2 小时前
我跑通了辅助起号Skil,新手也能直接抄~
人工智能
Wild API2 小时前
Claude、GPT、Gemini 场景对比表
人工智能·gpt·深度学习
星纬智联技术2 小时前
AI代码审查工具集成趋势:从“降本”到“提质”的流程重构
人工智能·aigc
xcLeigh2 小时前
AI标书底层技术全解析:NLP+大模型落地,喜鹊标书AI如何重构投标效率
人工智能·ai·自然语言处理·重构·大模型·nlp·标书
好多渔鱼好多3 小时前
【AI编程工具】Amazon Q Developer:从CodeWhisperer到云原生AI王者的进化
大数据·人工智能
好家伙VCC4 小时前
**神经编码新视角:用Python实现生物启发的神经信号压缩与解码算法**在人工智能飞速发展的今天
java·人工智能·python·算法