AI时代,运维工程师如何不被淘汰?从 Ops 到 Platform Engineer 的思维跃迁

两个人。两百个 Kubernetes 集群。五十万个节点。每年两次大版本升级,零事故。不是靠工具,是靠思维方式。


我在某大型电商公司的 Cloud Platform 团队工作多年,也面试过几十位想转型做 Platform Engineer 的候选人。

我发现了一个规律:大多数自称 "DevOps" 或 "Cloud Ops" 的工程师,技术扎实,勤奋负责。但他们和真正的 Platform Engineer 之间,有一道思维上的鸿沟------这道沟,决定了你是在永远解决问题,还是在系统性地消灭问题。

在 AI 快速渗透技术岗位的今天,这道沟正在变成一条分水岭。


面试中的那道题

我喜欢问一道开放题:"如果要给整个 Kubernetes Fleet 做 OS 升级,你会怎么设计?"

Ops 的回答通常是这样的:

"我会写一个自动化脚本,SSH 进每个节点,Drain 掉,升级 OS,再启动起来。可以加批量并发逻辑来提速。"

这是一个合格的答案。能跑。但它也需要为下一个 Fleet 重写,为Edge Case 打补丁,在凌晨 2 点出故障时 Debug,并且永远需要有人来维护它。

Platform 的回答是这样的:

"我会把节点升级建模成 Kubernetes 的 Desired State------写一个 CRD 声明目标 OS 版本和升级策略,再写一个 Controller 来持续 Reconcile 实际状态。平台负责执行策略,工程师只需要声明他们想要什么。"

这就是我一直看到的差距。

很多 DevOps 候选人能配置 CI/CD Pipeline,写 Terraform Workflow,在各种云平台上自动化部署。他们真的很擅长这些。但当他们换一个项目或换一个客户时,他们又从头来一遍------工作没有积累,经验没有复利。

还有一个信号:K8s 的使用停留在表面。大多数候选人会创建 Service、Deployment、配置 Pod Spec。但很少有人写过 CRD 或 Controller。使用 Kubernetes 和扩展 Kubernetes,是两种完全不同的能力。 这个区别,是判断一个人有没有 Platform 思维的可靠信号。


最本质的差异:解决这个问题 vs. 消灭这类问题

Ops 和 Platform 思维最深层的区别,不在于工具,在于当问题出现时,你问的是哪个问题。

Ops 工程师问的是: "这个怎么修?"

Platform 工程师问的是: "为什么这种问题反复出现?我怎么让这类问题彻底消失?"

Ops 思维 Platform 思维
Alert 触发时 响应并解决 为什么这个 Alert 存在?能不能从设计上消灭它?
团队问"怎么部署"时 写个 Runbook 搭一个自助的 Deployment Platform
三个团队碰到同一个 Bug 逐个修 把修复抽象成平台层的 Guardrail
客户是谁 基础设施本身 内部研发团队
目标是什么 保持系统运行 让团队跑得更快、更安全

最后那条特别重要。Ops 工程师的 KPI 通常是 Uptime 和 Ticket 解决率。Platform 工程师的 KPI 应该是------他们所服务的团队的研发效率和自主性。

你的 Platform 是一个产品,你的用户是工程师,他们的 Developer Experience(DX)就是你的 NPS。


真实案例:规模化下的 Platform 思维

我们的 Cloud Platform 团队管理 200+ 个 Kubernetes 集群,服务 5000+ 个应用,运行在 50 万个节点、200 万个实例上。每年需要:

  • 全量集群升级到最新 K8s 版本
  • 新增约 1/3 的集群容量
  • 上线几百个新应用
  • 每月 Patch OS 镜像消除安全漏洞

这种规模下,没有 Ops 路径可走。再多的 Runbook 和脚本,都会把团队淹在救火里。

以 K8s 大版本升级为例,挑战是这样的:我们有几十个 Customer Patch------针对 20+ 个内部平台(Web 框架、搜索、Hadoop、数据库、AI 平台等)的定制配置。每个平台需要在新版本上做 Validation,验证通过后再滚动发布到 200+ 个集群,零服务中断。

我们的 Platform 做法:

Patch 标准化。 每个 Customer Patch 都被形式化:结构化描述、核心需求、设计理由、Test Cases。这让 Patch 可Audit、可 Review------最终,可以被 AI 自动生成。新 K8s 版本发布后,系统能结合 Patch Spec 和新版 Changelog,自动生成每个 Patch 的升级 PR。

Validation 平台化。 我们跑起来一批候选版本的集群,开放给各内部平台团队自助验证。团队自己维护 Test Cases 和验证指标,平台自动跑出报告。每个平台自助完成 Validation,不再排队等我们。

部署平台化。 Control Plane 升级平台支持可配置的策略------并行批次、分阶段 Rollout、自动 Rollback------而不是一个靠人盯着的一次性脚本。

结果:两个人,每年执行两次大版本升级,覆盖 200+ 集群,升级近 100 个组件,打几十个 Patch,零事故。

杠杆才是关键。两个人做了原本需要一支团队的工作------不是因为他们更拼,而是因为他们构建了一个替他们干活的系统。


Platform 思维需要的 5 种能力

多年观察工程师成长(或停滞),我总结出区分 Platform Thinker 的五种核心能力:

1. 抽象(Abstraction)优先于自动化(Automation)

这是最关键的能力。Automation 解决一个 问题,Abstraction 解决一类问题。区别在于:你的方案是解决某个团队的特定部署需求,还是提供一个通用的部署能力,让每个团队都能用------包括那些需求稍有不同的团队?

抽象能力决定了你能解决一个人的问题,还是一千个人相似但不完全相同的问题。 这是脚本和平台的本质区别。

2. 产品思维

Platform 工程师在构建内部产品。这意味着要考虑 API 设计、文档、迁移成本和Adoption率。没有人用的平台不是平台,是一个昂贵的摆设。最好的 Platform 工程师对用户体验的执念,不亚于 PM 对客户的执念。

3. 杠杆思维

问自己:这周的工作在扩大我的影响力,还是只解决了今天的问题?如果一个工程师的输出能惠及 100 个团队,这就是杠杆。如果你的工作只能以你个人的执行速度来扩展,那是 Ops。两者都有价值------但只有一个(杠杆)会产生复利。

4. 系统约束优于流程管理

Ops 文化倾向于流程:Checklist、Runbook、人工审批权限。Platform 文化偏爱系统约束:Policy as Code、Admission Webhook、自动化 Guardrail。流程可以被绕过,系统约束不行。把正确性嵌入平台,而不是依赖每个人每次都遵守规则。

5. 不做英雄

Ops 文化容易产生"英雄"------那个知道所有事情的人,凌晨 2 点被叫起来的人,知识存在他脑子里无可替代的人。这个人看起来很有价值。但他也是单点故障,他构建不出任何能超越他自己的东西。

Platform 文化的目标是"不需要英雄"。每个能力都应该是自助的,每个关键知识都应该被编码进系统,而不是存在某个人的脑子里。


我见过两种工程师的不同轨迹。

一位工程师在 Ops 思维里工作了几十年------永远很忙,永远在解决问题,永远是有答案的那个人。但工作从没有复利。问题永远是旧问题的新版本。当技术转型来临,他的知识成了负担而不是资产。

另一位加入时 Kubernetes 经验有限。但他从一开始就有 Platform 本能:他先问"为什么这种问题反复出现?"再问"这个怎么修?"他思考自己的改动时,会考虑还有谁能从中受益。三四年后,他从 Junior 工程师成长为一个自主升级平台的技术骨干。

技术会变,思维方式的复利不会变。


AI 兴起:为什么现在更重要

AI Coding 工具的兴起,让这个问题变得更紧迫。

AI 非常擅长定义明确、重复性高的工作:为已知任务写自动化脚本,修复有清晰 Stack Trace 的 Bug,为标准部署模式生成 Terraform。这恰好是填满 Ops 工程师日历的工作。

那个靠"百科全书式系统知识"立足的 Ops 英雄,正在越来越容易被一个 LLM/Agent 替代------而这个 LLM/Agent 在训练过程中吸收的 Ops 知识,比任何个人职业生涯积累的都多。

Platform Engineering 则不同。 把具体的、混乱的真实需求抽象成干净的、通用的平台能力,需要 AI 目前还不具备的判断力。决定哪些非功能性需求更重要(可靠性 vs. 成本 vs. Developer Experience),在哪里划定抽象边界,如何为 80% 的用例设计,同时不影响 20% 的边界场景------这些都是需要上下文,风险,经验的综合判断问题。

AI 能帮 Platform 工程师跑得更快,抽象清晰之后,它能生成实现。但它还不能完成抽象本身。

换句话说:AI 在加速 Platform Engineering,但它在替代 Ops 工作。


写给想转型的 Ops 工程师

如果你技术扎实,工作努力,但隐约感觉有什么不对------工作没有在积累,总在重复解决相似的问题------这篇文章是写给你的。

转型不是学新工具的问题。Kubernetes、Terraform、CI/CD 是基础门票,不是门槛。转型是改变你遇到问题时问的那个问题

不是"这个怎么修?"而是"怎么让这类问题彻底消失?"

不是"怎么为这个客户自动化?"而是"怎么构建一个 100 个客户不需要我介入就能用的东西?"

不是"怎么成为大家都依赖的人?"而是"怎么构建一个不需要我的系统?"

一个只做 Ops 思维的工程师,在 AI 时代,他们也是最脆弱的那一批人。填满 Ops 日历的那些工作,正是 AI 最擅长的工作。

未来十年最重要的工程师,是那些构建 AI 来辅助的系统的人,而不是做 AI 要替代的工作的人。


如果你正在从 Ops 向 Platform 转型,或者你在构建内部平台,欢迎在评论区聊聊你的经历和困惑。

相关推荐
竹林8182 天前
用Python requests搞定Cookie登录,我绕过了三个大坑才成功
爬虫·python·自动化运维
人间打气筒(Ada)7 天前
ansible之role角色
运维·ansible·自动化运维·template·role·红帽·批量部署
山间野人10 天前
写了 1400 行部署脚本,被一行 scp 干废了
自动化运维
AI攻城狮15 天前
用 Playwright 实现博客一键发布到稀土掘金
python·自动化运维
冬奇Lab17 天前
一天一个开源项目(第37篇):awesome-selfhosted - 自托管软件资源集合
开源·自动化运维·资讯
国思RDIF框架21 天前
Docker Compose多后端+多前端部署:日志集中管理实操指南(基础版+进阶版,亲测可用)
docker·容器·自动化运维
政安晨1 个月前
政安晨【人工智能项目随笔】OpenClaw(AI人工智能助手)集成SMB服务器实现自动化音效素材处理实战
运维·自动化·自动化运维·samba·ai-agent·openclaw·音频素材openclaw处理
曹工不加班1 个月前
别再用旧版了!OpenClaw 2026.2.9 更新迁移避坑指南
机器人·aigc·自动化运维
智能运维指南2 个月前
2026自动化运维选型风向标:聚焦全场景自动化,筑牢业务合规与稳定防线
自动化运维·自动化运维平台·自动化运维厂商·自动化运维系统·运维自动化