【 AI 工作流】

作者：Leo Sin

本文参考了很多大神的分享和自己的思考，比如 openBMB 冠军曹议、浦江学术年会白院士、面壁智能刘老师的分享。

希望能帮到更多的人。

一句话版本

Gemini：负责前期调研、方案发散、资料整理、Prompt 梳理。
Claude Code：负责本地代码落地、实验执行、测试闭环。
Codex：负责代码 Review、第二意见、PR 守门、风险检查。

在我的实际使用中发现：

Gemini 对多模态任务的处理表现更好，尤其是有 Deep Research 工具，非常适合项目的前期准备。
Claude Code 由于有大上下文能力，对于项目落地和代码执行非常强力。
Codex 对代码 review 和规范化有自己专业的理解。

这套分工适合：

竞赛优化
性能调优
独立开发接单
研究型工程项目

推荐工作流

1. Gemini：选方向

先把完整背景、约束、评测标准交给 Gemini，让它做三件事：

列出可行优化方向
给出拆解思路
提供参考资料、论文、仓库、关键词

输出目标：

明确尝试哪条路线
明确哪些资料值得参考
明确下一步要交给 Claude Code 的任务范围

样例 Prompt：

text 复制代码

任务目标

基于当前环境中的 sglang fork 仓（支持 MiniCPM-SALA 新模型），进行通用性能分析与代码优化。

性能评估标准
通过执行 python scripts/bench_offline.py 并查看输出末尾的表格来评估性能。重点关注以下 3 × 2 = 6 种组合场景：

- 数据类型：长输入短输出（反映 Prefill 性能）、短输入长输出（反映 Decode 性能）。
- Batch Size (BS)：1、8、64。

约束条件

1. 稳定性与泛化：目前的测试用例是简化的静态 Batch，但你的优化必须是通用的。绝对不能破坏库的现有正常功能，也不能导致真实服务化场景（持续发送复杂请求）的性能劣化。
2. 强制配置：必须保持 "disable_radix_cache": True（绝对不可开启 radix cache）。
3. 允许的操作：你可以修改源码、更改配置开启特性、编写性能采集脚本，或使用 nsys 等工具辅助性能分析。

工作流要求

1. 先问后做：不要过度思考。每次准备修改代码或执行耗时测试前，先简单告诉我你的思路，得到我同意后再行动。
2. 文档记录：每次行动并测出结果后，将操作同步记录到总结文档中。要求极简：用 1-2 行说明做了什么修改，用 1 句话总结测试结果（无论性能是否有提升都必须记录）。

请根据上述要求，开始你的探索和优化。第一步你打算怎么做？

2. Claude Code：主执行

PS：如果有一些域外 IP 问题，也可以使用国内的 Qoder 或 Trae 代替。作者实际使用下来，GLM-5 的效果非常不错，而且非常便宜，性价比极高。

把整理好的 Prompt、参考资料、代码仓、补充说明交给 Claude Code。Claude Code 负责：

阅读项目
修改代码
编写轻量测试脚本
跑 benchmark / accuracy test
形成"修改 → 测试 → 记录"的闭环

这一步里最重要的是：

每次改动不要过大
每次改动都要有测试
每次结果都要有记录

3. Codex：做独立 Review

Claude Code 完成一轮实现后，不要直接相信结果，把改动交给 Codex 做第二轮检查。

这里也是看到朋友反馈：Codex review Claude 的代码特别仔细，哈哈，实际用下来确实是这样的。

Codex 负责重点看：

有没有隐藏 bug
有没有边界条件没考虑到
有没有破坏原有逻辑
有没有和任务目标不一致的修改
测试是不是不足
性能提升是否可能只是特例

也就是说：

Claude Code 像施工员
Codex 像质检员

简洁结论

更合理的 AI 协同方式，不是只用两个人：

Gemini 负责想清楚
Claude Code 负责做出来
Codex 负责挑毛病

这样比"一个 AI 从头干到尾"更稳，也更接近高质量工程流程。

Enjoy The New World！