作者:Leo Sin
本文参考了很多大神的分享和自己的思考,比如 openBMB 冠军曹议、浦江学术年会白院士、面壁智能刘老师的分享。
希望能帮到更多的人。
一句话版本
- Gemini:负责前期调研、方案发散、资料整理、Prompt 梳理。
- Claude Code:负责本地代码落地、实验执行、测试闭环。
- Codex:负责代码 Review、第二意见、PR 守门、风险检查。
在我的实际使用中发现:
- Gemini 对多模态任务的处理表现更好,尤其是有 Deep Research 工具,非常适合项目的前期准备。
- Claude Code 由于有大上下文能力,对于项目落地和代码执行非常强力。
- Codex 对代码 review 和规范化有自己专业的理解。
这套分工适合:
- 竞赛优化
- 性能调优
- 独立开发接单
- 研究型工程项目
推荐工作流
1. Gemini:选方向
先把完整背景、约束、评测标准交给 Gemini,让它做三件事:
- 列出可行优化方向
- 给出拆解思路
- 提供参考资料、论文、仓库、关键词
输出目标:
- 明确尝试哪条路线
- 明确哪些资料值得参考
- 明确下一步要交给 Claude Code 的任务范围
样例 Prompt:
text
任务目标
基于当前环境中的 sglang fork 仓(支持 MiniCPM-SALA 新模型),进行通用性能分析与代码优化。
性能评估标准
通过执行 python scripts/bench_offline.py 并查看输出末尾的表格来评估性能。重点关注以下 3 × 2 = 6 种组合场景:
- 数据类型:长输入短输出(反映 Prefill 性能)、短输入长输出(反映 Decode 性能)。
- Batch Size (BS):1、8、64。
约束条件
1. 稳定性与泛化:目前的测试用例是简化的静态 Batch,但你的优化必须是通用的。绝对不能破坏库的现有正常功能,也不能导致真实服务化场景(持续发送复杂请求)的性能劣化。
2. 强制配置:必须保持 "disable_radix_cache": True(绝对不可开启 radix cache)。
3. 允许的操作:你可以修改源码、更改配置开启特性、编写性能采集脚本,或使用 nsys 等工具辅助性能分析。
工作流要求
1. 先问后做:不要过度思考。每次准备修改代码或执行耗时测试前,先简单告诉我你的思路,得到我同意后再行动。
2. 文档记录:每次行动并测出结果后,将操作同步记录到总结文档中。要求极简:用 1-2 行说明做了什么修改,用 1 句话总结测试结果(无论性能是否有提升都必须记录)。
请根据上述要求,开始你的探索和优化。第一步你打算怎么做?
2. Claude Code:主执行
PS:如果有一些域外 IP 问题,也可以使用国内的 Qoder 或 Trae 代替。作者实际使用下来,GLM-5 的效果非常不错,而且非常便宜,性价比极高。
把整理好的 Prompt、参考资料、代码仓、补充说明交给 Claude Code。Claude Code 负责:
- 阅读项目
- 修改代码
- 编写轻量测试脚本
- 跑 benchmark / accuracy test
- 形成"修改 → 测试 → 记录"的闭环
这一步里最重要的是:
- 每次改动不要过大
- 每次改动都要有测试
- 每次结果都要有记录
3. Codex:做独立 Review
Claude Code 完成一轮实现后,不要直接相信结果,把改动交给 Codex 做第二轮检查。
这里也是看到朋友反馈:Codex review Claude 的代码特别仔细,哈哈,实际用下来确实是这样的。
Codex 负责重点看:
- 有没有隐藏 bug
- 有没有边界条件没考虑到
- 有没有破坏原有逻辑
- 有没有和任务目标不一致的修改
- 测试是不是不足
- 性能提升是否可能只是特例
也就是说:
- Claude Code 像施工员
- Codex 像质检员
简洁结论
更合理的 AI 协同方式,不是只用两个人:
- Gemini 负责想清楚
- Claude Code 负责做出来
- Codex 负责挑毛病
这样比"一个 AI 从头干到尾"更稳,也更接近高质量工程流程。
Enjoy The New World!