【 AI 工作流】

作者:Leo Sin

本文参考了很多大神的分享和自己的思考,比如 openBMB 冠军曹议、浦江学术年会白院士、面壁智能刘老师的分享。

希望能帮到更多的人。

一句话版本

  • Gemini:负责前期调研、方案发散、资料整理、Prompt 梳理。
  • Claude Code:负责本地代码落地、实验执行、测试闭环。
  • Codex:负责代码 Review、第二意见、PR 守门、风险检查。

在我的实际使用中发现:

  • Gemini 对多模态任务的处理表现更好,尤其是有 Deep Research 工具,非常适合项目的前期准备。
  • Claude Code 由于有大上下文能力,对于项目落地和代码执行非常强力。
  • Codex 对代码 review 和规范化有自己专业的理解。

这套分工适合:

  • 竞赛优化
  • 性能调优
  • 独立开发接单
  • 研究型工程项目

推荐工作流

1. Gemini:选方向

先把完整背景、约束、评测标准交给 Gemini,让它做三件事:

  1. 列出可行优化方向
  2. 给出拆解思路
  3. 提供参考资料、论文、仓库、关键词

输出目标:

  • 明确尝试哪条路线
  • 明确哪些资料值得参考
  • 明确下一步要交给 Claude Code 的任务范围

样例 Prompt:

text 复制代码
任务目标

基于当前环境中的 sglang fork 仓(支持 MiniCPM-SALA 新模型),进行通用性能分析与代码优化。

性能评估标准
通过执行 python scripts/bench_offline.py 并查看输出末尾的表格来评估性能。重点关注以下 3 × 2 = 6 种组合场景:

- 数据类型:长输入短输出(反映 Prefill 性能)、短输入长输出(反映 Decode 性能)。
- Batch Size (BS):1、8、64。

约束条件

1. 稳定性与泛化:目前的测试用例是简化的静态 Batch,但你的优化必须是通用的。绝对不能破坏库的现有正常功能,也不能导致真实服务化场景(持续发送复杂请求)的性能劣化。
2. 强制配置:必须保持 "disable_radix_cache": True(绝对不可开启 radix cache)。
3. 允许的操作:你可以修改源码、更改配置开启特性、编写性能采集脚本,或使用 nsys 等工具辅助性能分析。

工作流要求

1. 先问后做:不要过度思考。每次准备修改代码或执行耗时测试前,先简单告诉我你的思路,得到我同意后再行动。
2. 文档记录:每次行动并测出结果后,将操作同步记录到总结文档中。要求极简:用 1-2 行说明做了什么修改,用 1 句话总结测试结果(无论性能是否有提升都必须记录)。

请根据上述要求,开始你的探索和优化。第一步你打算怎么做?

2. Claude Code:主执行

PS:如果有一些域外 IP 问题,也可以使用国内的 Qoder 或 Trae 代替。作者实际使用下来,GLM-5 的效果非常不错,而且非常便宜,性价比极高。

把整理好的 Prompt、参考资料、代码仓、补充说明交给 Claude Code。Claude Code 负责:

  • 阅读项目
  • 修改代码
  • 编写轻量测试脚本
  • 跑 benchmark / accuracy test
  • 形成"修改 → 测试 → 记录"的闭环

这一步里最重要的是:

  • 每次改动不要过大
  • 每次改动都要有测试
  • 每次结果都要有记录

3. Codex:做独立 Review

Claude Code 完成一轮实现后,不要直接相信结果,把改动交给 Codex 做第二轮检查。

这里也是看到朋友反馈:Codex review Claude 的代码特别仔细,哈哈,实际用下来确实是这样的。

Codex 负责重点看:

  1. 有没有隐藏 bug
  2. 有没有边界条件没考虑到
  3. 有没有破坏原有逻辑
  4. 有没有和任务目标不一致的修改
  5. 测试是不是不足
  6. 性能提升是否可能只是特例

也就是说:

  • Claude Code 像施工员
  • Codex 像质检员

简洁结论

更合理的 AI 协同方式,不是只用两个人:

  • Gemini 负责想清楚
  • Claude Code 负责做出来
  • Codex 负责挑毛病

这样比"一个 AI 从头干到尾"更稳,也更接近高质量工程流程。

Enjoy The New World!

相关推荐
2301_809049424 分钟前
WSL Ubuntu24修改g++和cuda toolkit version
人工智能
sunneo7 分钟前
专栏A-AI原生产品设计-01-AI辅助 vs AI原生——产品形态的代际差异
人工智能·语言模型·产品运营·产品经理·ai编程·ai-native
ting94520007 分钟前
Wan2.1-1.3B 深度技术指南:架构、能力、部署与实战全解析
人工智能·架构
热心网友俣先生7 分钟前
2026华中杯A题超详细解题思路+第一篇论文分享
人工智能·算法·机器学习
介一安全10 分钟前
JADX与AI结合的实操指南:从工具配置到APK分析
人工智能·测试工具·安全性测试·jadx
2501_9400417413 分钟前
投喂:AI生成各类游戏提示词
人工智能·游戏·prompt
做cv的小昊16 分钟前
【TJU】研究生应用统计学课程笔记(4)——第二章 参数估计(2.1 矩估计和极大似然估计、2.2估计量的优良性原则)
人工智能·笔记·考研·数学建模·数据分析·excel·概率论
ApachePulsar20 分钟前
演讲回顾|Apache Pulsar: 现代数据架构的消息底座
人工智能·架构
Agent产品评测局20 分钟前
混合云架构适配:企业级智能体灵活部署完整方案与最佳实践 | 2026企业自动化选型硬核指南
运维·人工智能·ai·chatgpt·架构·自动化
一个小浪吴啊22 分钟前
重构 AI 编程流:基于 Hermes 记忆中枢与 OpenCode 执行终端的 Harness 工程化实践
java·人工智能·opencode·harness·hermes