【FinOps】云计算基础设施成本管理实践（5原则+4能力域+3阶段）

文章目录

- [1、什么是 FinOps（云环境 vs 传统机房）](#1、什么是 FinOps（云环境 vs 传统机房）)
- [2、理论上怎么做（5原则 + 4能力域 + 3阶段）](#2、理论上怎么做（5原则 + 4能力域 + 3阶段）)
- - [2.1 5原则：做 FinOps 的基本方法（有些地方是6条，不过差不多）](#2.1 5原则：做 FinOps 的基本方法（有些地方是6条，不过差不多）)
  - [2.2 4能力域：做 FinOps 要覆盖哪些事](#2.2 4能力域：做 FinOps 要覆盖哪些事)
  - - 1、理解云资源使用和成本
    - 2、量化业务价值
    - 3、优化资源使用和成本
    - [4、管理 FinOps 这件事本身](#4、管理 FinOps 这件事本身)
  - [2.3 3阶段：按什么顺序推进](#2.3 3阶段：按什么顺序推进)
- 3、实践上怎么做
- - [3.1 按 4能力域看，具体要做什么](#3.1 按 4能力域看，具体要做什么)
  - - 1、理解云资源使用和成本
    - 2、量化业务价值
    - 3、优化资源使用和成本
    - [4、管理 FinOps 机制](#4、管理 FinOps 机制)
  - [3.2 按 3阶段看，团队应该怎么推进](#3.2 按 3阶段看，团队应该怎么推进)
  - [3.3 如果做成平台，平台上应该有什么能力](#3.3 如果做成平台，平台上应该有什么能力)
  - - 1、数据层：把多云和多系统的数据统一起来
    - 2、分析层：把钱花在哪说清楚
    - 3、分摊层：把共享成本算明白
    - 4、治理层：把"发现问题"变成"推动执行"
    - [5、运营层：把 FinOps 变成日常机制](#5、运营层：把 FinOps 变成日常机制)

1、什么是 FinOps（云环境 vs 传统机房）

FinOps 是 Finance 与 DevOps 结合形成的一种云成本管理实践。它不是单纯的"省钱工具"，也不是月底看账单的财务动作，而是让财务、技术、业务围绕同一套成本数据协作，持续做出更合理的资源支出决策。

可以把它理解成一句话：

FinOps = 在保证性能、稳定性、安全性和交付效率的前提下，让云支出更透明、更可归因、更可优化。

为什么会有 FinOps？因为云环境和传统机房不一样：

资源是弹性的，随时可以申请、扩容、释放
费用是持续发生的，不是一次性采购完就结束
账单维度很多，按账号、地域、规格、存储、流量、服务类型分别计费
使用资源的人和承担费用的人，往往不是同一批人

所以企业在上云之后很容易遇到这些问题：

云账单越来越高，但说不清到底贵在哪里
资源创建得很快，回收却很慢
技术团队知道机器跑得稳不稳，但不知道贵不贵
财务团队看得到总额，却不知道应该找谁负责
业务在增长，成本也在增长，但不知道增长是不是合理

从这个角度看，FinOps 的核心不是"压缩预算"，而是回答四个问题：

这笔钱花在哪了
这笔钱为什么要花
这笔钱该由谁负责
这笔钱有没有更优的花法

2、理论上怎么做（5原则 + 4能力域 + 3阶段）

FinOps 的内容很多，但如果要抓住一个稳定的大纲，用 5原则 + 4能力域 + 3阶段 就够了。

5原则 解决"为什么这样做"
4能力域 解决"具体要覆盖哪些事"
3阶段 解决"应该按什么顺序推进"

这样看，很多原来看起来分散的点，其实只是同一件事从不同角度的表达。

2.1 5原则：做 FinOps 的基本方法（有些地方是6条，不过差不多）

可以把 FinOps 的原则理解成 5 条工作方法：

团队协作

财务、技术、平台、业务要围绕同一套数据协作，不能各看各的口径。
业务价值驱动

FinOps 追求的不是最低成本，而是合理成本下的最大业务价值。
人人对成本负责

资源的申请者、使用者、管理者都应该有成本感知，而不是只让财务在月底兜底。
及时决策

云成本是动态变化的，所以管理动作也要及时，不能只靠月底报表。
按云的方式管理云

云资源本来就是弹性、按量、持续计费的，所以成本管理也必须动态化、自动化。

这 5 条原则可以帮助判断团队是不是在"用 FinOps 的方式做事"。如果还停留在"月底看账单、出了问题再问责"，通常说明还没有真正进入 FinOps。

2.2 4能力域：做 FinOps 要覆盖哪些事

FinOps Foundation 的内容如果压缩来看，最适合落地的是下面 4 个能力域。

1、理解云资源使用和成本

核心是把钱花在哪看清楚。通常要做到：

看得到总成本、部门成本、项目成本、应用成本、环境成本
看得到 Top N 高成本服务和异常增长项
能把账单映射到组织、项目、负责人

如果连"谁花了多少钱"都说不清，后面的优化很容易变成拍脑袋。

2、量化业务价值

核心是把"花了多少钱"和"带来了什么结果"连起来。通常要回答：

成本上升是业务增长导致的，还是资源浪费导致的
单用户、单订单、单请求、单训练任务的成本是多少
某项投入是必要投入，还是低效投入

这一层决定 FinOps 最终是不是只停留在"省钱"，还是能支撑经营分析。

3、优化资源使用和成本

核心是识别浪费并推动改进。通常包括：

闲置资源识别
低利用率和过配识别
存储与备份生命周期优化
按量、预留、长期承诺、Spot/竞价等计费策略优化

这一层是大家最容易想到的"降本"，但它必须建立在前两层基础之上。

4、管理 FinOps 这件事本身

核心是让 FinOps 变成机制，而不是一次性专项。通常包括：

预算
告警
成本责任人
月度或季度复盘
优化建议跟踪
审批、审计和自动化治理

这一层决定 FinOps 能不能长期跑起来。

2.3 3阶段：按什么顺序推进

FinOps 最经典的推进顺序是 3 个阶段：

Inform

先把账单、资源、标签、组织关系接起来，让成本可见、可解释、可归因。
Optimize

在看清楚的基础上，识别浪费、测算收益、执行优化。
Operate

把预算、告警、责任人、复盘、自动化治理这些机制稳定下来。

可以直接用它来判断自己现在处于哪一步：

主要在做账单接入、标签治理、报表建设，说明在 Inform
已经在做闲置识别、降配、回收、采购策略调整，说明进入了 Optimize
已经有预算、告警、复盘和自动化闭环，说明开始进入 Operate

从成熟度上看，大多数团队也是按这个顺序逐步走：

先解决"看不见"
再解决"降不动"
最后解决"管不住"

3、实践上怎么做

实践部分也可以直接套这套骨架来展开。这样不会出现"点很多但互相重复"的问题。

3.1 按 4能力域看，具体要做什么

1、理解云资源使用和成本

先把最基础的数据接起来：

公有云账单
资源清单
标签信息
组织架构、项目、负责人映射
CPU、内存、磁盘、网络、GPU 等利用率指标

实践例子：

云账单里看到一笔高额费用来自 ECS + 云盘 + 带宽，如果没有资源元数据和组织映射，只知道花了钱，不知道是谁花的
接入资源和组织信息后，就能定位到"这是 A 部门 B 项目的生产集群，在华东地域新增了 20 台节点"

这一层的重点不是优化，而是先把账单变成"可解释的数据"。

2、量化业务价值

重点是把成本和业务指标关联起来，例如：

单用户成本
单订单成本
单请求成本
单训练任务成本
某租户月均基础设施成本

实践例子：

某部门本月成本增长 40%，但业务订单量只增长 5%，这就说明成本增长可能不健康
某个 AI 训练集群 GPU 成本很高，但训练产出任务数没有同步增长，说明资源效率可能有问题

这一层做得越好，越能区分"值得花的钱"和"浪费的钱"。

3、优化资源使用和成本

这部分可以从最容易落地的动作开始：

回收 30 天以上无使用痕迹的测试主机
清理长期未挂载云盘和过期快照
识别 CPU 长期低于 10%、内存长期低于 20% 的低利用率主机
给开发测试环境设置夜间关机策略
把稳定负载从按量付费迁到预留实例或长期承诺资源

实践例子：

某测试环境 50 台主机只在白天使用，如果设置每天晚上 8 点关机、早上 8 点开机，单月成本通常会明显下降
某业务数据库长期只用了 20% 的规格能力，但一直按高规格续费，降配就是最直接的优化收益

4、管理 FinOps 机制

这一层要把治理动作固定下来：

建预算
建异常告警
建成本责任人
建月报、季报和复盘
跟踪优化建议采纳率和实际节省金额

实践例子：

给某项目设定月预算 30 万，达到 70%、90%、100% 时分别通知负责人
某天对象存储流量突然翻倍，系统自动告警，提醒排查是否有爬虫、重复同步或错误发布
对连续 3 个月成本异常增长的项目发起专项治理

3.2 按 3阶段看，团队应该怎么推进

1、Inform：先解决"看不见"

先做这些基础动作：

账单接入
资源清单同步
标签治理
基础报表和成本看板
部门、项目、应用、环境的基本归因

目标是：先把大部分成本解释清楚。

2、Optimize：再解决"降不动"

在看清楚之后，重点推进：

闲置资源识别
低利用率和过配识别
共享资源分摊
计费策略优化
优化建议执行闭环

目标是：把优化从"看出来"推进到"做下去"。

3、Operate：最后解决"管不住"

当基础能力和优化动作稳定之后，再固化成机制：

预算管理
告警中心
成本责任机制
月度和季度复盘
自动化治理
成本与业务指标联动分析

目标是：让 FinOps 从项目变成长期运营机制。

3.3 如果做成平台，平台上应该有什么能力

如果不是只做几张报表，而是要建设一个混合云 FinOps 管理平台，可以按下面几层理解。

1、数据层：把多云和多系统的数据统一起来

应接入：

公有云账单
私有云或虚拟化资源数据
CMDB/资产目录
组织和成本中心数据
标签与租户映射
监控指标数据

要解决的问题是：

不同云厂商账单格式不一致
同一种资源在不同平台命名不同
成本和组织结构之间没有天然映射关系

2、分析层：把钱花在哪说清楚

至少应支持：

总成本看板
部门/项目/应用/环境/租户多维分析
Top N 成本项
趋势分析
异常波动分析
预算执行分析

实践例子：

某项目成本突然上升，钻取后发现不是主机增加，而是跨地域流量费用异常上涨
某个 AI 训练集群 GPU 成本很高，但进一步分析发现利用率并不高，说明成本高不一定等于价值高

3、分摊层：把共享成本算明白

至少应支持：

标签直分
固定比例分摊
按实际用量分摊
按租户、项目或集群份额分摊
生成内部结算账单

实践例子：

平台团队的共享 K8s 集群，不再全部记到平台成本，而是拆给各业务 namespace
共享对象存储按 bucket 或项目维度归集
统一带宽按业务出口流量占比分摊

4、治理层：把"发现问题"变成"推动执行"

至少应支持：

闲置资源识别
低利用率资源识别
过配规格识别
采购策略建议
可节省金额测算
工单或自动化执行

实践例子：

识别出 100 台低利用率主机，并生成"建议降配到 2C4G"的动作清单
识别到 200 个过期快照后，先通知负责人，7 天后自动清理
对开发环境执行定时启停，对生产环境只给建议不自动执行

5、运营层：把 FinOps 变成日常机制

至少应支持：

预算管理
告警中心
责任人机制
月报/季报
成本复盘
审计日志

实践例子：

月初自动生成上月部门成本报告，发给各负责人确认
对连续 3 个月成本异常增长的项目发起专项治理
对优化建议采纳率低的团队，在月度经营会上做复盘

Finops官方的证书考试：

放一些JD

txt 复制代码

FinOps成本运营专家 40-60*16
岗位职责:
1、完成公有云、SAAS等品类和采购对接，包括不限于多云平台、软件(版权软件、系统软件、办公软件等)
2、制定技术年度预算，并跟进各部门执行情况，识别预算异常进行及时治理。
3、成本运营管理:熟悉各云产品及saas产品价格，能进行价格合理性审核和谈判;能主动进行成本效率洞察，组织推动内部降本增效;
4、及时完成上级安排的其他工作任务。
任职要求:
1、全日制统招本科及以上学历，有FinOps实践落地等优先;
2、3年以上IT硬件、软件、服务等成本、预算管理相关工作经验，有大型互联网企业相关采购经验者优先;
3、有公有云、saas软件采购经验优先;
4、熟知采购及供应商管理流程，对IT资产成本有深挖及创新的管理经验;
5、需具备较强的逻辑思维能力、沟通和协调能力，抗压能力强，具有良好的职业道德和操守;6、具备良好的谈判能力，良好的商务拓展能力及谈判技巧。

FinOps工程师/数据分析专家 20-40*16
作为FinOps工程师/数据分析专家，与工程研发、财务等团队合作，持续探寻混合云环境下基础资源能效与成本优化的更优解;
岗位职责:
1.资源链路成本管理，包括但不限于成本链路拆分，量、价、规则合理性评估，资源选型建议
2.设计维护运营机制与流程，如预算编制、优化专项、内账定价，建立清晰、可量化的管控分工与合作
3.数据与系统工具持续建设，支撑内外部资源流转、成本发生链路的监控与管理
4.跟踪业务领域完整链路变化(最佳实践/开源方案/云厂商产品/基础设施/部件厂商等)，洞悉市场前瞻指引，寻找新的收益落地机会
任职要求:
1.熟悉云服务/云产品、数据中心、网络、设备硬件大类中的一种;有大型分布式系统(计算/存储)的开发/运维经验者优先
2.熟悉常用数据库，熟悉SQL语法;掌握Python，R，SAS，Matlab，Tableau等数据分析工具中的至少一种;
3.对数据运营有清晰的分析逻辑和全局思维，能提出具有创造性的解决思路和方案;
4.善于沟通，具备丰富跨职能团队合作经验;
5.乐观皮实，自我驱动能力强，能够组织、争取资源，推进项目落地与交付。

FinOps研发工程师-北京/上海 30-60*16
工作职责:
学习小红书业务应用、系统、基础设施等各层技术的调用关系;
负责设计、落地的业务、系统组件的成本和资源管理解决方案，包括但不限于资源售卖率&利用率监控和管理、基础设施资源&业务容量规划、需求和预算管理、重大活动资源管理等;
深入支撑业务全局性的成本和资源类问题，包括指标体系建设、协同机制和流程建设和整体业务的保障，并持续优化该体系的效率;
主导并推进成本和资源管理解决方案落地到产品工具中，通过产品工具和数据化驱动降低成本，实现高效自动化的平台化能力。
任职资格:
本科及以上学历，对以下一个或者几个领域有深入的理解:成本优化、资源管理、基础架构容量规划;
扎实的计算机软件基础知识，了解Linux操作系统、存储、网络I0等相关原理;
具有相关计算/分布式/大数据等系统运维经验优先;
具有产品和系统化思维，良好的项目能力、数据结构和分析的能力者优先;
有较强的抗压能力，能够并行处理多项工作;
有良好的沟通能力、能通过影响他人拿到结果、乐观，快速学习能力强。

FinOps工程师 20·40*15
岗位职责:
1.负责公司云上资源的日常运维、使用分析与优化，保障业务稳定运行的同时提升资源效率;
2.熟悉主流云厂商(阿里云、腾讯云、AWS、GCP等)的产品特性与定价规则，能够进行账单分析并提出降本优化建议;
3.执行并落地各类成本优化方案，包括实例规格优化、弹性伸缩策略、存储分层、网络带宽治理等;
4.基于脚本或工具开发实现自动化治理，如闲置资源清理、成本异常检测、用量预测;
5.协助制定云资源使用规范、标签体系、成本归因规则，推动业务团队落实。
任职资格:
1、计算机相关专业，本科及以上学历，3年以上云平台或运维/DevOps相关经验。
2、熟悉云产品(计算、存储、网络、数据库、中间件)的使用场景及定价逻辑。
3、掌握Python/Go/Java等至少一门语言，能开发简单工具进行自动化治理。
4、有过实际云资源降本项目经验，能展示降本成果。
5、具备较强的沟通与推动能力，能与业务、研发配合落地治理
6、有云厂商证(AWS SA、阿里云ACP/ACE、FinOps Practitioner)优先。

参考资料

【FinOps】云计算基础设施成本管理实践（5原则+4能力域+3阶段）

文章目录

1、什么是 FinOps（云环境 vs 传统机房）

2、理论上怎么做（5原则 + 4能力域 + 3阶段）

2.1 5原则：做 FinOps 的基本方法（有些地方是6条，不过差不多）

2.2 4能力域：做 FinOps 要覆盖哪些事

1、理解云资源使用和成本

2、量化业务价值

3、优化资源使用和成本

4、管理 FinOps 这件事本身

2.3 3阶段：按什么顺序推进

3、实践上怎么做

3.1 按 4能力域 看，具体要做什么

1、理解云资源使用和成本

2、量化业务价值

3、优化资源使用和成本

4、管理 FinOps 机制

3.2 按 3阶段 看，团队应该怎么推进

1、Inform：先解决"看不见"

2、Optimize：再解决"降不动"

3、Operate：最后解决"管不住"

3.3 如果做成平台，平台上应该有什么能力

1、数据层：把多云和多系统的数据统一起来

2、分析层：把钱花在哪说清楚

3、分摊层：把共享成本算明白

4、治理层：把"发现问题"变成"推动执行"

5、运营层：把 FinOps 变成日常机制

3.1 按 4能力域看，具体要做什么

3.2 按 3阶段看，团队应该怎么推进