哥们儿,有没有试过,凌晨三点,你被告警的夺命连环 call 惊醒。打开后台,CPU 占用率 99%,日志里一片红。又是那条该死的慢查询,一个手滑的 JOIN
,让整个服务雪崩了 30 分钟。复盘会上,你顶着黑眼圈解释着索引、分片和缓存策略,心里却无比憋屈:为什么我们总是在救火,而不是在创造?
我们每天都在谈论微服务、DDD、云原生,把架构图画得比迷宫还复杂。为了一个新功能的部署,要开无数个对齐会、评审会,流程比代码还长。一个简单的数据库字段变更,能从上个季度拖到下个季度。我们自诩为工程师,却活得像个"流程审批师"。
这种愤怒和无力感,你我都懂。我们被困在自己亲手搭建的"完美"系统里,每走一步都如履薄冰。
就在我们为一次部署要不要重启服务而争论不休时,一个前 OpenAI 员工的离职反思,像一记重拳打在我脸上。他提到,OpenAI 的一个核心产品------Codex(就是那个能帮你写代码的 AI),从立项到发布,只用了 7 周。

你没看错,7 周。一个由 8 名工程师组成的核心团队,在一个 3000 人的公司里,用不到两个月的时间,从零到一发布了一款震惊业界的产品。
这背后没有什么黑魔法,而是一种我们似乎早已遗忘的、令人敬畏的文化和工作方式。核心就三点:极致的行动偏好、小而精的授权团队,以及"代码即决策"的铁律。 他们用行动证明,速度不是混乱的同义词,而是打赢战争的唯一途径。
这篇文章,我们就来深度拆解 OpenAI 这台"增长机器"内部的秘密,看看他们的"乱",是如何"乱"得井井有条,又是如何创造出惊人效率的。
让我们深入 OpenAI 的"代码厨房",看看他们到底是怎么做菜的。
1. 巨型单体仓库 (Monorepo) vs. 微服务地狱
当我们还在为服务拆分、API 边界、RPC 还是 RESTful 争论不休时,OpenAI 的核心代码在一个巨大的 Python 单体仓库里。是的,你没听错,Python Monorepo。这在许多架构师看来简直是"异端"。
- 为什么这么做? 作者提到,这避免了大量的协调成本。当一个想法需要跨团队协作时,你不需要去协调另一个团队的排期、发布窗口和 API 协议。你直接
import
他们的代码,写你的逻辑,提交 PR。代码本身就是最高效的沟通工具。 - 代价是什么? 代码风格五花八门。你能看到谷歌十年老兵写的工业级扩展库,也能看到博士生刚出炉的、带着
print
调试信息的 Jupyter Notebook 代码。CI 经常挂,跑一次完整的测试用例要 30 分钟。但他们接受这种混乱,因为交付价值的速度远比代码的"纯净度"重要。
2. "代码为王" vs. "架构委员会"
在 OpenAI,一个功能的最终决策权,往往属于那个真正动手去写代码的团队 。没有冗长的架构评审会,没有跨部门的"指导委员会"。作者提到,在 Codex 正式立项前,内部已经有好几个团队自发地做出了 3-4 个原型。哪个原型最有前景,团队和资源就自然向它靠拢。
这种"自下而上"的文化,让好点子能快速涌现并得到验证。领导者的角色不是规划蓝图,而是识别出那些最有潜力的"野路子",并为他们扫清障碍。
3. "残缺"的基础设施 vs. "完美"的自研轮子
OpenAI 跑在 Azure 上,但前员工坦言,Azure 的生态远不如 AWS。除了 AKS、CosmosDB 和 BlobStore,像 DynamoDB、Spanner、BigQuery 这样的"神器"都没有对等的产品。
- 他们的选择是什么? 自己造! 当你看到他们内部重新实现了 Meta 的 TAO(一个大规模图存储系统)时,你才会明白这家公司的野心和执行力。他们不被现成的工具束缚,而是基于核心需求,快速构建"够用"的内部平台。这听起来成本很高,但与 GPU 的惊人消耗相比,"几乎所有东西都是取整误差"。
这种对速度的极致追求,最终在一个真实的项目中得到了淋漓尽致的体现。
Codex 的发布,就是一场教科书式的闪电战。
- 背景: 2025 年初,公司定下了发布一个编码 Agent 的目标。同时,市场上各种"AI 编程"工具开始涌现,压力巨大。
- 团队: 一个由 ~8 名工程师、~4 名研究员、2 名设计师、2 名 GTM 和 1 名 PM 组成的核心突击队。注意这个工程师和研究员的比例,以及团队的精干程度。
- 时间线: 7 周。从第一行代码到产品上线。作者本人为此从陪产假中提前回归,团队成员几乎每晚干到十一二点,周末无休。
- 技术挑战: 他们在 7 周内构建了一个容器运行时、优化了仓库下载、微调了一个专门用于代码编辑的自定义模型、处理了各种 Git 操作、引入了全新的交互界面、实现了网络访问...... 这工作量,在我们这儿,可能需要两个季度才能完成需求评审。
发布前夜,5 个人熬到凌晨 4 点部署核心服务。早上 8 点,准时官宣,流量瞬间涌入。不需要复杂的灰度策略,不需要漫长的市场预热,就是这么直接、粗暴、有效。
53 天内,Codex 生成了 63 万个公开 PR。 平均下来,每个核心工程师每天创造了近 1500 个 PR。这个数字,足以让任何一个 KPI 驱动的团队感到敬畏和汗颜。
当然,这种"野蛮生长"模式并非没有代价,它更像是在悬崖边上开赛车。
- 坑点一:技术债堆积如山。 作者直言,他们的主服务后端(
sa-server
)就是一个"垃圾场",各种逻辑混杂。CI/CD 经常崩溃,测试运行缓慢。这对于追求稳定性和可维护性的后端/DBA 来说,是噩梦般的存在。 - 坑点二:对个人能力要求极高。 这种模式依赖于一小撮顶级的、高度自驱的工程师。作者提到,团队里的人几乎不需要指导,只需要协调。这种"特种兵"文化很难在普通公司大规模复制。
- 坑点三:组织规模化的阵痛。 公司从 1000 人扩张到 3000 人只用了一年。沟通、汇报、管理、招聘流程全部被打破重塑。这导致了内部文化的不统一,有的团队在冲刺,有的团队在" babysitting "(照看)大型训练任务。
反脆弱方案是什么?
OpenAI 的方案并非制度,而是人 和文化。
- 持续引入强力"外援": 大量从 Meta 这种经历过类似规模化阵痛的公司挖来顶级基建人才,快速弥补基础设施的短板。
- 承认并管理混乱: 他们不试图消灭混乱,而是承认这是速度的必然代价。与其花时间制定完美的规范,不如投入资源快速迭代工具,改善最痛的点。
- 灵活的团队结构: 当 Codex 团队需要人手时,跟 ChatGPT 团队的 EM 一说,第二天两个"悍将"就到位了。没有季度规划,没有人头审批,只有"解决问题"这个唯一目标。
反思,我们不应只是羡慕或焦虑,而应该反思我们自己的工作方式。我为你提炼了一个"速度优先"的团队自检清单,你可以用它来评估你的团队和公司:
- [ ] 行动授权: 我是否可以不经批准,就为一个新想法搭建一个原型?
- [ ] 团队规模: 负责核心创新的团队,是否保持在 10 人以下?
- [ ] 决策机制: 是写代码的人决定技术方案,还是委员会投票决定?
- [ ] 失败容忍: 我们的系统和文化,是否允许一个实验性的功能快速上线,哪怕它可能不完美甚至会失败?
- [ ] 资源流动: 当关键项目需要支援时,我们能否在 48 小时内调动人员,而不是等待下一个排期窗口?
- [ ] 工具 vs. 目标: 我们是在追求完美的工具和架构,还是在追求最快速度交付用户价值?
如果以上问题的答案大多是否定的,那么你遇到的性能瓶颈、交付延迟,可能根源并不在技术,而在组织本身。
回到开头那个被慢查询折磨的夜晚。或许,我们缺的不是更牛的数据库、更完美的架构,而是一种敢于打破规则、快速试错的勇气。
OpenAI 的故事告诉我们,在一个被颠覆的时代,最危险的不是犯错,而是缓慢。与其在无尽的会议和流程中耗尽激情,不如扪心自问:我们是在构建一个坚固的堡垒,还是在打造一艘能乘风破浪的快艇?
如果你也对团队的效率感到焦虑,对无休止的流程感到愤怒,把这篇文章分享给你的老大和同事。也许,这就是开启一场内部变革的开始。毕竟,改变世界的第一步,是先改变我们写代码的方式。