两个人。两百个 Kubernetes 集群。五十万个节点。每年两次大版本升级,零事故。不是靠工具,是靠思维方式。
我在某大型电商公司的 Cloud Platform 团队工作多年,也面试过几十位想转型做 Platform Engineer 的候选人。
我发现了一个规律:大多数自称 "DevOps" 或 "Cloud Ops" 的工程师,技术扎实,勤奋负责。但他们和真正的 Platform Engineer 之间,有一道思维上的鸿沟------这道沟,决定了你是在永远解决问题,还是在系统性地消灭问题。
在 AI 快速渗透技术岗位的今天,这道沟正在变成一条分水岭。
面试中的那道题
我喜欢问一道开放题:"如果要给整个 Kubernetes Fleet 做 OS 升级,你会怎么设计?"
Ops 的回答通常是这样的:
"我会写一个自动化脚本,SSH 进每个节点,Drain 掉,升级 OS,再启动起来。可以加批量并发逻辑来提速。"
这是一个合格的答案。能跑。但它也需要为下一个 Fleet 重写,为Edge Case 打补丁,在凌晨 2 点出故障时 Debug,并且永远需要有人来维护它。
Platform 的回答是这样的:
"我会把节点升级建模成 Kubernetes 的 Desired State------写一个 CRD 声明目标 OS 版本和升级策略,再写一个 Controller 来持续 Reconcile 实际状态。平台负责执行策略,工程师只需要声明他们想要什么。"
这就是我一直看到的差距。
很多 DevOps 候选人能配置 CI/CD Pipeline,写 Terraform Workflow,在各种云平台上自动化部署。他们真的很擅长这些。但当他们换一个项目或换一个客户时,他们又从头来一遍------工作没有积累,经验没有复利。
还有一个信号:K8s 的使用停留在表面。大多数候选人会创建 Service、Deployment、配置 Pod Spec。但很少有人写过 CRD 或 Controller。使用 Kubernetes 和扩展 Kubernetes,是两种完全不同的能力。 这个区别,是判断一个人有没有 Platform 思维的可靠信号。
最本质的差异:解决这个问题 vs. 消灭这类问题
Ops 和 Platform 思维最深层的区别,不在于工具,在于当问题出现时,你问的是哪个问题。
Ops 工程师问的是: "这个怎么修?"
Platform 工程师问的是: "为什么这种问题反复出现?我怎么让这类问题彻底消失?"
| Ops 思维 | Platform 思维 | |
|---|---|---|
| Alert 触发时 | 响应并解决 | 为什么这个 Alert 存在?能不能从设计上消灭它? |
| 团队问"怎么部署"时 | 写个 Runbook | 搭一个自助的 Deployment Platform |
| 三个团队碰到同一个 Bug | 逐个修 | 把修复抽象成平台层的 Guardrail |
| 客户是谁 | 基础设施本身 | 内部研发团队 |
| 目标是什么 | 保持系统运行 | 让团队跑得更快、更安全 |
最后那条特别重要。Ops 工程师的 KPI 通常是 Uptime 和 Ticket 解决率。Platform 工程师的 KPI 应该是------他们所服务的团队的研发效率和自主性。
你的 Platform 是一个产品,你的用户是工程师,他们的 Developer Experience(DX)就是你的 NPS。
真实案例:规模化下的 Platform 思维
我们的 Cloud Platform 团队管理 200+ 个 Kubernetes 集群,服务 5000+ 个应用,运行在 50 万个节点、200 万个实例上。每年需要:
- 全量集群升级到最新 K8s 版本
- 新增约 1/3 的集群容量
- 上线几百个新应用
- 每月 Patch OS 镜像消除安全漏洞
这种规模下,没有 Ops 路径可走。再多的 Runbook 和脚本,都会把团队淹在救火里。
以 K8s 大版本升级为例,挑战是这样的:我们有几十个 Customer Patch------针对 20+ 个内部平台(Web 框架、搜索、Hadoop、数据库、AI 平台等)的定制配置。每个平台需要在新版本上做 Validation,验证通过后再滚动发布到 200+ 个集群,零服务中断。
我们的 Platform 做法:
Patch 标准化。 每个 Customer Patch 都被形式化:结构化描述、核心需求、设计理由、Test Cases。这让 Patch 可Audit、可 Review------最终,可以被 AI 自动生成。新 K8s 版本发布后,系统能结合 Patch Spec 和新版 Changelog,自动生成每个 Patch 的升级 PR。
Validation 平台化。 我们跑起来一批候选版本的集群,开放给各内部平台团队自助验证。团队自己维护 Test Cases 和验证指标,平台自动跑出报告。每个平台自助完成 Validation,不再排队等我们。
部署平台化。 Control Plane 升级平台支持可配置的策略------并行批次、分阶段 Rollout、自动 Rollback------而不是一个靠人盯着的一次性脚本。
结果:两个人,每年执行两次大版本升级,覆盖 200+ 集群,升级近 100 个组件,打几十个 Patch,零事故。
杠杆才是关键。两个人做了原本需要一支团队的工作------不是因为他们更拼,而是因为他们构建了一个替他们干活的系统。
Platform 思维需要的 5 种能力
多年观察工程师成长(或停滞),我总结出区分 Platform Thinker 的五种核心能力:
1. 抽象(Abstraction)优先于自动化(Automation)
这是最关键的能力。Automation 解决一个 问题,Abstraction 解决一类问题。区别在于:你的方案是解决某个团队的特定部署需求,还是提供一个通用的部署能力,让每个团队都能用------包括那些需求稍有不同的团队?
抽象能力决定了你能解决一个人的问题,还是一千个人相似但不完全相同的问题。 这是脚本和平台的本质区别。
2. 产品思维
Platform 工程师在构建内部产品。这意味着要考虑 API 设计、文档、迁移成本和Adoption率。没有人用的平台不是平台,是一个昂贵的摆设。最好的 Platform 工程师对用户体验的执念,不亚于 PM 对客户的执念。
3. 杠杆思维
问自己:这周的工作在扩大我的影响力,还是只解决了今天的问题?如果一个工程师的输出能惠及 100 个团队,这就是杠杆。如果你的工作只能以你个人的执行速度来扩展,那是 Ops。两者都有价值------但只有一个(杠杆)会产生复利。
4. 系统约束优于流程管理
Ops 文化倾向于流程:Checklist、Runbook、人工审批权限。Platform 文化偏爱系统约束:Policy as Code、Admission Webhook、自动化 Guardrail。流程可以被绕过,系统约束不行。把正确性嵌入平台,而不是依赖每个人每次都遵守规则。
5. 不做英雄
Ops 文化容易产生"英雄"------那个知道所有事情的人,凌晨 2 点被叫起来的人,知识存在他脑子里无可替代的人。这个人看起来很有价值。但他也是单点故障,他构建不出任何能超越他自己的东西。
Platform 文化的目标是"不需要英雄"。每个能力都应该是自助的,每个关键知识都应该被编码进系统,而不是存在某个人的脑子里。
我见过两种工程师的不同轨迹。
一位工程师在 Ops 思维里工作了几十年------永远很忙,永远在解决问题,永远是有答案的那个人。但工作从没有复利。问题永远是旧问题的新版本。当技术转型来临,他的知识成了负担而不是资产。
另一位加入时 Kubernetes 经验有限。但他从一开始就有 Platform 本能:他先问"为什么这种问题反复出现?"再问"这个怎么修?"他思考自己的改动时,会考虑还有谁能从中受益。三四年后,他从 Junior 工程师成长为一个自主升级平台的技术骨干。
技术会变,思维方式的复利不会变。
AI 兴起:为什么现在更重要
AI Coding 工具的兴起,让这个问题变得更紧迫。
AI 非常擅长定义明确、重复性高的工作:为已知任务写自动化脚本,修复有清晰 Stack Trace 的 Bug,为标准部署模式生成 Terraform。这恰好是填满 Ops 工程师日历的工作。
那个靠"百科全书式系统知识"立足的 Ops 英雄,正在越来越容易被一个 LLM/Agent 替代------而这个 LLM/Agent 在训练过程中吸收的 Ops 知识,比任何个人职业生涯积累的都多。
Platform Engineering 则不同。 把具体的、混乱的真实需求抽象成干净的、通用的平台能力,需要 AI 目前还不具备的判断力。决定哪些非功能性需求更重要(可靠性 vs. 成本 vs. Developer Experience),在哪里划定抽象边界,如何为 80% 的用例设计,同时不影响 20% 的边界场景------这些都是需要上下文,风险,经验的综合判断问题。
AI 能帮 Platform 工程师跑得更快,抽象清晰之后,它能生成实现。但它还不能完成抽象本身。
换句话说:AI 在加速 Platform Engineering,但它在替代 Ops 工作。
写给想转型的 Ops 工程师
如果你技术扎实,工作努力,但隐约感觉有什么不对------工作没有在积累,总在重复解决相似的问题------这篇文章是写给你的。
转型不是学新工具的问题。Kubernetes、Terraform、CI/CD 是基础门票,不是门槛。转型是改变你遇到问题时问的那个问题。
不是"这个怎么修?"而是"怎么让这类问题彻底消失?"
不是"怎么为这个客户自动化?"而是"怎么构建一个 100 个客户不需要我介入就能用的东西?"
不是"怎么成为大家都依赖的人?"而是"怎么构建一个不需要我的系统?"
一个只做 Ops 思维的工程师,在 AI 时代,他们也是最脆弱的那一批人。填满 Ops 日历的那些工作,正是 AI 最擅长的工作。
未来十年最重要的工程师,是那些构建 AI 来辅助的系统的人,而不是做 AI 要替代的工作的人。
如果你正在从 Ops 向 Platform 转型,或者你在构建内部平台,欢迎在评论区聊聊你的经历和困惑。