【FinOps】云计算基础设施成本管理实践(5原则+4能力域+3阶段)
文章目录
-
- [1、什么是 FinOps(云环境 vs 传统机房)](#1、什么是 FinOps(云环境 vs 传统机房))
- [2、理论上怎么做(5原则 + 4能力域 + 3阶段)](#2、理论上怎么做(5原则 + 4能力域 + 3阶段))
-
- [2.1 5原则:做 FinOps 的基本方法(有些地方是6条,不过差不多)](#2.1 5原则:做 FinOps 的基本方法(有些地方是6条,不过差不多))
- [2.2 4能力域:做 FinOps 要覆盖哪些事](#2.2 4能力域:做 FinOps 要覆盖哪些事)
-
- 1、理解云资源使用和成本
- 2、量化业务价值
- 3、优化资源使用和成本
- [4、管理 FinOps 这件事本身](#4、管理 FinOps 这件事本身)
- [2.3 3阶段:按什么顺序推进](#2.3 3阶段:按什么顺序推进)
- 3、实践上怎么做
-
- [3.1 按 4能力域 看,具体要做什么](#3.1 按 4能力域 看,具体要做什么)
-
- 1、理解云资源使用和成本
- 2、量化业务价值
- 3、优化资源使用和成本
- [4、管理 FinOps 机制](#4、管理 FinOps 机制)
- [3.2 按 3阶段 看,团队应该怎么推进](#3.2 按 3阶段 看,团队应该怎么推进)
- [3.3 如果做成平台,平台上应该有什么能力](#3.3 如果做成平台,平台上应该有什么能力)
-
- 1、数据层:把多云和多系统的数据统一起来
- 2、分析层:把钱花在哪说清楚
- 3、分摊层:把共享成本算明白
- 4、治理层:把"发现问题"变成"推动执行"
- [5、运营层:把 FinOps 变成日常机制](#5、运营层:把 FinOps 变成日常机制)
1、什么是 FinOps(云环境 vs 传统机房)
FinOps 是 Finance 与 DevOps 结合形成的一种云成本管理实践。它不是单纯的"省钱工具",也不是月底看账单的财务动作,而是让财务、技术、业务围绕同一套成本数据协作,持续做出更合理的资源支出决策。
可以把它理解成一句话:
FinOps = 在保证性能、稳定性、安全性和交付效率的前提下,让云支出更透明、更可归因、更可优化。
为什么会有 FinOps?因为云环境和传统机房不一样:
- 资源是弹性的,随时可以申请、扩容、释放
- 费用是持续发生的,不是一次性采购完就结束
- 账单维度很多,按账号、地域、规格、存储、流量、服务类型分别计费
- 使用资源的人和承担费用的人,往往不是同一批人
所以企业在上云之后很容易遇到这些问题:
- 云账单越来越高,但说不清到底贵在哪里
- 资源创建得很快,回收却很慢
- 技术团队知道机器跑得稳不稳,但不知道贵不贵
- 财务团队看得到总额,却不知道应该找谁负责
- 业务在增长,成本也在增长,但不知道增长是不是合理
从这个角度看,FinOps 的核心不是"压缩预算",而是回答四个问题:
- 这笔钱花在哪了
- 这笔钱为什么要花
- 这笔钱该由谁负责
- 这笔钱有没有更优的花法
2、理论上怎么做(5原则 + 4能力域 + 3阶段)
FinOps 的内容很多,但如果要抓住一个稳定的大纲,用 5原则 + 4能力域 + 3阶段 就够了。
5原则解决"为什么这样做"4能力域解决"具体要覆盖哪些事"3阶段解决"应该按什么顺序推进"
这样看,很多原来看起来分散的点,其实只是同一件事从不同角度的表达。

2.1 5原则:做 FinOps 的基本方法(有些地方是6条,不过差不多)
可以把 FinOps 的原则理解成 5 条工作方法:
-
团队协作
财务、技术、平台、业务要围绕同一套数据协作,不能各看各的口径。
-
业务价值驱动
FinOps 追求的不是最低成本,而是合理成本下的最大业务价值。
-
人人对成本负责
资源的申请者、使用者、管理者都应该有成本感知,而不是只让财务在月底兜底。
-
及时决策
云成本是动态变化的,所以管理动作也要及时,不能只靠月底报表。
-
按云的方式管理云
云资源本来就是弹性、按量、持续计费的,所以成本管理也必须动态化、自动化。
这 5 条原则可以帮助判断团队是不是在"用 FinOps 的方式做事"。如果还停留在"月底看账单、出了问题再问责",通常说明还没有真正进入 FinOps。
2.2 4能力域:做 FinOps 要覆盖哪些事
FinOps Foundation 的内容如果压缩来看,最适合落地的是下面 4 个能力域。
1、理解云资源使用和成本
核心是把钱花在哪看清楚。通常要做到:
- 看得到总成本、部门成本、项目成本、应用成本、环境成本
- 看得到 Top N 高成本服务和异常增长项
- 能把账单映射到组织、项目、负责人
如果连"谁花了多少钱"都说不清,后面的优化很容易变成拍脑袋。
2、量化业务价值
核心是把"花了多少钱"和"带来了什么结果"连起来。通常要回答:
- 成本上升是业务增长导致的,还是资源浪费导致的
- 单用户、单订单、单请求、单训练任务的成本是多少
- 某项投入是必要投入,还是低效投入
这一层决定 FinOps 最终是不是只停留在"省钱",还是能支撑经营分析。
3、优化资源使用和成本
核心是识别浪费并推动改进。通常包括:
- 闲置资源识别
- 低利用率和过配识别
- 存储与备份生命周期优化
- 按量、预留、长期承诺、Spot/竞价等计费策略优化
这一层是大家最容易想到的"降本",但它必须建立在前两层基础之上。
4、管理 FinOps 这件事本身
核心是让 FinOps 变成机制,而不是一次性专项。通常包括:
- 预算
- 告警
- 成本责任人
- 月度或季度复盘
- 优化建议跟踪
- 审批、审计和自动化治理
这一层决定 FinOps 能不能长期跑起来。
2.3 3阶段:按什么顺序推进
FinOps 最经典的推进顺序是 3 个阶段:
-
Inform先把账单、资源、标签、组织关系接起来,让成本可见、可解释、可归因。
-
Optimize在看清楚的基础上,识别浪费、测算收益、执行优化。
-
Operate把预算、告警、责任人、复盘、自动化治理这些机制稳定下来。
可以直接用它来判断自己现在处于哪一步:
- 主要在做账单接入、标签治理、报表建设,说明在
Inform - 已经在做闲置识别、降配、回收、采购策略调整,说明进入了
Optimize - 已经有预算、告警、复盘和自动化闭环,说明开始进入
Operate
从成熟度上看,大多数团队也是按这个顺序逐步走:
- 先解决"看不见"
- 再解决"降不动"
- 最后解决"管不住"
3、实践上怎么做
实践部分也可以直接套这套骨架来展开。这样不会出现"点很多但互相重复"的问题。
3.1 按 4能力域 看,具体要做什么
1、理解云资源使用和成本
先把最基础的数据接起来:
- 公有云账单
- 资源清单
- 标签信息
- 组织架构、项目、负责人映射
- CPU、内存、磁盘、网络、GPU 等利用率指标
实践例子:
- 云账单里看到一笔高额费用来自
ECS + 云盘 + 带宽,如果没有资源元数据和组织映射,只知道花了钱,不知道是谁花的 - 接入资源和组织信息后,就能定位到"这是 A 部门 B 项目的生产集群,在华东地域新增了 20 台节点"
这一层的重点不是优化,而是先把账单变成"可解释的数据"。
2、量化业务价值
重点是把成本和业务指标关联起来,例如:
- 单用户成本
- 单订单成本
- 单请求成本
- 单训练任务成本
- 某租户月均基础设施成本
实践例子:
- 某部门本月成本增长 40%,但业务订单量只增长 5%,这就说明成本增长可能不健康
- 某个 AI 训练集群 GPU 成本很高,但训练产出任务数没有同步增长,说明资源效率可能有问题
这一层做得越好,越能区分"值得花的钱"和"浪费的钱"。
3、优化资源使用和成本
这部分可以从最容易落地的动作开始:
- 回收 30 天以上无使用痕迹的测试主机
- 清理长期未挂载云盘和过期快照
- 识别 CPU 长期低于 10%、内存长期低于 20% 的低利用率主机
- 给开发测试环境设置夜间关机策略
- 把稳定负载从按量付费迁到预留实例或长期承诺资源
实践例子:
- 某测试环境 50 台主机只在白天使用,如果设置每天晚上 8 点关机、早上 8 点开机,单月成本通常会明显下降
- 某业务数据库长期只用了 20% 的规格能力,但一直按高规格续费,降配就是最直接的优化收益
4、管理 FinOps 机制
这一层要把治理动作固定下来:
- 建预算
- 建异常告警
- 建成本责任人
- 建月报、季报和复盘
- 跟踪优化建议采纳率和实际节省金额
实践例子:
- 给某项目设定月预算 30 万,达到 70%、90%、100% 时分别通知负责人
- 某天对象存储流量突然翻倍,系统自动告警,提醒排查是否有爬虫、重复同步或错误发布
- 对连续 3 个月成本异常增长的项目发起专项治理
3.2 按 3阶段 看,团队应该怎么推进
1、Inform:先解决"看不见"
先做这些基础动作:
- 账单接入
- 资源清单同步
- 标签治理
- 基础报表和成本看板
- 部门、项目、应用、环境的基本归因
目标是:先把大部分成本解释清楚。
2、Optimize:再解决"降不动"
在看清楚之后,重点推进:
- 闲置资源识别
- 低利用率和过配识别
- 共享资源分摊
- 计费策略优化
- 优化建议执行闭环
目标是:把优化从"看出来"推进到"做下去"。
3、Operate:最后解决"管不住"
当基础能力和优化动作稳定之后,再固化成机制:
- 预算管理
- 告警中心
- 成本责任机制
- 月度和季度复盘
- 自动化治理
- 成本与业务指标联动分析
目标是:让 FinOps 从项目变成长期运营机制。
3.3 如果做成平台,平台上应该有什么能力
如果不是只做几张报表,而是要建设一个混合云 FinOps 管理平台,可以按下面几层理解。
1、数据层:把多云和多系统的数据统一起来
应接入:
- 公有云账单
- 私有云或虚拟化资源数据
- CMDB/资产目录
- 组织和成本中心数据
- 标签与租户映射
- 监控指标数据
要解决的问题是:
- 不同云厂商账单格式不一致
- 同一种资源在不同平台命名不同
- 成本和组织结构之间没有天然映射关系
2、分析层:把钱花在哪说清楚
至少应支持:
- 总成本看板
- 部门/项目/应用/环境/租户多维分析
- Top N 成本项
- 趋势分析
- 异常波动分析
- 预算执行分析
实践例子:
- 某项目成本突然上升,钻取后发现不是主机增加,而是跨地域流量费用异常上涨
- 某个 AI 训练集群 GPU 成本很高,但进一步分析发现利用率并不高,说明成本高不一定等于价值高
3、分摊层:把共享成本算明白
至少应支持:
- 标签直分
- 固定比例分摊
- 按实际用量分摊
- 按租户、项目或集群份额分摊
- 生成内部结算账单
实践例子:
- 平台团队的共享 K8s 集群,不再全部记到平台成本,而是拆给各业务 namespace
- 共享对象存储按 bucket 或项目维度归集
- 统一带宽按业务出口流量占比分摊
4、治理层:把"发现问题"变成"推动执行"
至少应支持:
- 闲置资源识别
- 低利用率资源识别
- 过配规格识别
- 采购策略建议
- 可节省金额测算
- 工单或自动化执行
实践例子:
- 识别出 100 台低利用率主机,并生成"建议降配到 2C4G"的动作清单
- 识别到 200 个过期快照后,先通知负责人,7 天后自动清理
- 对开发环境执行定时启停,对生产环境只给建议不自动执行
5、运营层:把 FinOps 变成日常机制
至少应支持:
- 预算管理
- 告警中心
- 责任人机制
- 月报/季报
- 成本复盘
- 审计日志
实践例子:
- 月初自动生成上月部门成本报告,发给各负责人确认
- 对连续 3 个月成本异常增长的项目发起专项治理
- 对优化建议采纳率低的团队,在月度经营会上做复盘
Finops官方的证书考试:


放一些JD
txt
FinOps成本运营专家 40-60*16
岗位职责:
1、完成公有云、SAAS等品类和采购对接,包括不限于多云平台、软件(版权软件、系统软件、办公软件等)
2、制定技术年度预算,并跟进各部门执行情况,识别预算异常进行及时治理。
3、成本运营管理:熟悉各云产品及saas产品价格,能进行价格合理性审核和谈判;能主动进行成本效率洞察,组织推动内部降本增效;
4、及时完成上级安排的其他工作任务。
任职要求:
1、全日制统招本科及以上学历,有FinOps实践落地等优先;
2、3年以上IT硬件、软件、服务等成本、预算管理相关工作经验,有大型互联网企业相关采购经验者优先;
3、有公有云、saas软件采购经验优先;
4、熟知采购及供应商管理流程,对IT资产成本有深挖及创新的管理经验;
5、需具备较强的逻辑思维能力、沟通和协调能力,抗压能力强,具有良好的职业道德和操守;6、具备良好的谈判能力,良好的商务拓展能力及谈判技巧。
FinOps工程师/数据分析专家 20-40*16
作为FinOps工程师/数据分析专家,与工程研发、财务等团队合作,持续探寻混合云环境下基础资源能效与成本优化的更优解;
岗位职责:
1.资源链路成本管理,包括但不限于成本链路拆分,量、价、规则合理性评估,资源选型建议
2.设计维护运营机制与流程,如预算编制、优化专项、内账定价,建立清晰、可量化的管控分工与合作
3.数据与系统工具持续建设,支撑内外部资源流转、成本发生链路的监控与管理
4.跟踪业务领域完整链路变化(最佳实践/开源方案/云厂商产品/基础设施/部件厂商等),洞悉市场前瞻指引,寻找新的收益落地机会
任职要求:
1.熟悉云服务/云产品、数据中心、网络、设备硬件大类中的一种;有大型分布式系统(计算/存储)的开发/运维经验者优先
2.熟悉常用数据库,熟悉SQL语法;掌握Python,R,SAS,Matlab,Tableau等数据分析工具中的至少一种;
3.对数据运营有清晰的分析逻辑和全局思维,能提出具有创造性的解决思路和方案;
4.善于沟通,具备丰富跨职能团队合作经验;
5.乐观皮实,自我驱动能力强,能够组织、争取资源,推进项目落地与交付。
FinOps研发工程师-北京/上海 30-60*16
工作职责:
学习小红书业务应用、系统、基础设施等各层技术的调用关系;
负责设计、落地的业务、系统组件的成本和资源管理解决方案,包括但不限于资源售卖率&利用率监控和管理、基础设施资源&业务容量规划、需求和预算管理、重大活动资源管理等;
深入支撑业务全局性的成本和资源类问题,包括指标体系建设、协同机制和流程建设和整体业务的保障,并持续优化该体系的效率;
主导并推进成本和资源管理解决方案落地到产品工具中,通过产品工具和数据化驱动降低成本,实现高效自动化的平台化能力。
任职资格:
本科及以上学历,对以下一个或者几个领域有深入的理解:成本优化、资源管理、基础架构容量规划;
扎实的计算机软件基础知识,了解Linux操作系统、存储、网络I0等相关原理;
具有相关计算/分布式/大数据等系统运维经验优先;
具有产品和系统化思维,良好的项目能力、数据结构和分析的能力者优先;
有较强的抗压能力,能够并行处理多项工作;
有良好的沟通能力、能通过影响他人拿到结果、乐观,快速学习能力强。
FinOps工程师 20·40*15
岗位职责:
1.负责公司云上资源的日常运维、使用分析与优化,保障业务稳定运行的同时提升资源效率;
2.熟悉主流云厂商(阿里云、腾讯云、AWS、GCP等)的产品特性与定价规则,能够进行账单分析并提出降本优化建议;
3.执行并落地各类成本优化方案,包括实例规格优化、弹性伸缩策略、存储分层、网络带宽治理等;
4.基于脚本或工具开发实现自动化治理,如闲置资源清理、成本异常检测、用量预测;
5.协助制定云资源使用规范、标签体系、成本归因规则,推动业务团队落实。
任职资格:
1、计算机相关专业,本科及以上学历,3年以上云平台或运维/DevOps相关经验。
2、熟悉云产品(计算、存储、网络、数据库、中间件)的使用场景及定价逻辑。
3、掌握Python/Go/Java等至少一门语言,能开发简单工具进行自动化治理。
4、有过实际云资源降本项目经验,能展示降本成果。
5、具备较强的沟通与推动能力,能与业务、研发配合落地治理
6、有云厂商证(AWS SA、阿里云ACP/ACE、FinOps Practitioner)优先。
参考资料