【 AI 工作流】

作者:Leo Sin

本文参考了很多大神的分享和自己的思考,比如 openBMB 冠军曹议、浦江学术年会白院士、面壁智能刘老师的分享。

希望能帮到更多的人。

一句话版本

  • Gemini:负责前期调研、方案发散、资料整理、Prompt 梳理。
  • Claude Code:负责本地代码落地、实验执行、测试闭环。
  • Codex:负责代码 Review、第二意见、PR 守门、风险检查。

在我的实际使用中发现:

  • Gemini 对多模态任务的处理表现更好,尤其是有 Deep Research 工具,非常适合项目的前期准备。
  • Claude Code 由于有大上下文能力,对于项目落地和代码执行非常强力。
  • Codex 对代码 review 和规范化有自己专业的理解。

这套分工适合:

  • 竞赛优化
  • 性能调优
  • 独立开发接单
  • 研究型工程项目

推荐工作流

1. Gemini:选方向

先把完整背景、约束、评测标准交给 Gemini,让它做三件事:

  1. 列出可行优化方向
  2. 给出拆解思路
  3. 提供参考资料、论文、仓库、关键词

输出目标:

  • 明确尝试哪条路线
  • 明确哪些资料值得参考
  • 明确下一步要交给 Claude Code 的任务范围

样例 Prompt:

text 复制代码
任务目标

基于当前环境中的 sglang fork 仓(支持 MiniCPM-SALA 新模型),进行通用性能分析与代码优化。

性能评估标准
通过执行 python scripts/bench_offline.py 并查看输出末尾的表格来评估性能。重点关注以下 3 × 2 = 6 种组合场景:

- 数据类型:长输入短输出(反映 Prefill 性能)、短输入长输出(反映 Decode 性能)。
- Batch Size (BS):1、8、64。

约束条件

1. 稳定性与泛化:目前的测试用例是简化的静态 Batch,但你的优化必须是通用的。绝对不能破坏库的现有正常功能,也不能导致真实服务化场景(持续发送复杂请求)的性能劣化。
2. 强制配置:必须保持 "disable_radix_cache": True(绝对不可开启 radix cache)。
3. 允许的操作:你可以修改源码、更改配置开启特性、编写性能采集脚本,或使用 nsys 等工具辅助性能分析。

工作流要求

1. 先问后做:不要过度思考。每次准备修改代码或执行耗时测试前,先简单告诉我你的思路,得到我同意后再行动。
2. 文档记录:每次行动并测出结果后,将操作同步记录到总结文档中。要求极简:用 1-2 行说明做了什么修改,用 1 句话总结测试结果(无论性能是否有提升都必须记录)。

请根据上述要求,开始你的探索和优化。第一步你打算怎么做?

2. Claude Code:主执行

PS:如果有一些域外 IP 问题,也可以使用国内的 Qoder 或 Trae 代替。作者实际使用下来,GLM-5 的效果非常不错,而且非常便宜,性价比极高。

把整理好的 Prompt、参考资料、代码仓、补充说明交给 Claude Code。Claude Code 负责:

  • 阅读项目
  • 修改代码
  • 编写轻量测试脚本
  • 跑 benchmark / accuracy test
  • 形成"修改 → 测试 → 记录"的闭环

这一步里最重要的是:

  • 每次改动不要过大
  • 每次改动都要有测试
  • 每次结果都要有记录

3. Codex:做独立 Review

Claude Code 完成一轮实现后,不要直接相信结果,把改动交给 Codex 做第二轮检查。

这里也是看到朋友反馈:Codex review Claude 的代码特别仔细,哈哈,实际用下来确实是这样的。

Codex 负责重点看:

  1. 有没有隐藏 bug
  2. 有没有边界条件没考虑到
  3. 有没有破坏原有逻辑
  4. 有没有和任务目标不一致的修改
  5. 测试是不是不足
  6. 性能提升是否可能只是特例

也就是说:

  • Claude Code 像施工员
  • Codex 像质检员

简洁结论

更合理的 AI 协同方式,不是只用两个人:

  • Gemini 负责想清楚
  • Claude Code 负责做出来
  • Codex 负责挑毛病

这样比"一个 AI 从头干到尾"更稳,也更接近高质量工程流程。

Enjoy The New World!

相关推荐
树獭非懒1 小时前
从零构建ReAct智能体:让AI学会边想边做
人工智能·llm·agent
冬奇Lab11 小时前
Workflow 系列(04):Multi-Agent 协调——编排器边界、并发控制与上下文隔离
人工智能·工作流引擎
冬奇Lab12 小时前
每日一个开源项目(第147篇):HyperGraphRAG - 用超图表示 N 元关系,RAG 的第三代范式
人工智能·开源·graphql
甲维斯12 小时前
Github + 阿里云oss实现类似codex的自动更新!
人工智能
阿里云大数据AI技术14 小时前
光轮智能 × 阿里云:共建 Physical AI 云上数据、评测与持续学习基础设施
人工智能·机器学习
机器之心14 小时前
实锤了:Claude Code偷查用户,时区、中国AI实验室全是关键词
人工智能·openai
网易云信14 小时前
Cursor点燃个人开发者,企业级AI为何频频受挫?Agent工厂从提效工具到AI员工的跃迁
人工智能·开源
网易云信14 小时前
解锁触手可及的温暖:网易智企 x Wander Puffs AI 云游泡芙
人工智能