跟踪你的实例很难,但为它们获得最佳价格不应该也很难。
译自FinOps: It's All about Culture and Automation,作者 Joe Fay。
当亚马逊的首席技术官(CTO)上台要求首席信息官(CIO)减少在亚马逊网络服务(AWS)服务上的花费时,这明显表明我们已经达到了云计算经济学的一个转折点。
但这正是沃纳·沃格尔斯(Werner Vogels)在re:Invent 2023上对AWS客户所说的,他告诉AWS客户需要成为"节约的架构师",并开始管理云成本。
而这些成本确实是巨大的,Gartner预测2024年公有云支出将达到6790亿美元,而2022年为4780亿美元。生成式人工智能(AI)是这一火焰的燃料。
但是,尽管云支出正在急剧增长,许多技术领导者似乎还不确定他们是否掌握了它。全球会计咨询公司毕马威(KPMG)发现,三分之二的高管认为他们的云计划没有降低信息技术(IT)系统的总拥有成本。
然而,毕马威还发现,这在很大程度上是由于未能理解在云中管理和消费基础设施与管理它通常所取代的旧的数据中心基础设施之间的区别。
扩大规模,缩小规模
在内部部署的世界中,开发团队"在甚至开始工作之前就已经定义了预算",咨询公司Container Solutions的联合创始人皮尼·雷兹尼克(Pini Reznik)和"云原生转型"的合著者告诉The New Stack。
如果在内部部署中部署的开发团队想要一台新硬件,他们必须提出商业案例,并完成通常比较冗长的采购和规划过程。
相比之下,云为工程师打开了"整个资源世界",Reznik说。所有的事情都诱人地简单,包括准备新服务器和扩展基础设施。而且,"你不需要关闭任何东西......它可以一直开着,这样在早上可以为你节省10分钟的设置时间。"
成本激增可能要到季度账单出来时才会显现出来。Reznik说,到那时,"取消已经太迟了。"
而且,如果在一开始没有考虑架构决策的财务成本,项目或应用程序可能会被锁定在更高的资源水平上。
这自然会为CFO制造预算头疼。但云也使CFO更难预测未来成本。
"在一个多变的云环境中,这是很难预测的,"ProsperOps的高级FinOps专家Steven O'Dwyer对The New Stack说。"因为不断有新服务推出,这些服务的部署和计费方式不同,所以没有人搞定了预测。"
尽管如此,他说,CFO将设立CIO和CTO必须遵守的预算。"所以这推动CFO和CTO寻找浪费,以便他们实际上有高投资回报率工作负载的预算。"
这促成了专门致力于FinOps的专业人员和团队的兴起,O'Dwyer将FinOps定义为"确保跟踪、监控、处理、实施和完善工程优化以及费率优化"的做法。
建立云中心卓越部门
毫无疑问,O'Dwyer将这些FinOps团队描述为"伸缩人"式的位置,既要确保工程师具有所需的灵活性,又要满足CFO对云成本可管理和可预测的需求。
O'Dwyer说,FinOps最终涉及文化转变。"这不是买个工具然后说'好,我有FinOps了'这样简单。"CFO和CTO需要理解各自的责任和需求。但他们也需要与团队合作,帮助他们理解更广泛的问题,并找到具体的方法来解决和管理它。
一个实际的步骤是建立一个"云中心卓越部门",其中包括所有这些相关不同团队和项目的成员,并定期召开会议。这样可以确保FinOps工作(无论是财务驱动还是工程驱动)保持一致,并在必要时就折衷方案达成一致。
O'Dwyer说,"行政支持"对此至关重要。财务和工程组织必须承诺根除浪费并采取行动,同时认识到根据需要扩大和缩小规模的必要性。两组领导和团队都必须买进这个概念,否则它根本行不通。
当谈到将目标转化为现实的实际步骤时,了解组织的云资源和使用情况至关重要。O'Dwyer说,这需要标记。
他说,能够隔离或分配成本至关重要:"所有云提供商都允许您标记资源。现在,您可以从零开始建立云环境的结构和组织结构,以便轻松跟踪。"
进行"尖叫测试"
他说,一旦云中心卓越团队建立了正确的标记要求,就必须实施这些要求。
这可以通过治理工具来实现,无论是开源的、原生的还是第三方的。当然,财务运营(FinOps)团队必须确保正在使用这些标记。
财务运营团队及其在首席财务官(CFO)和首席技术官(CTO)办公室的支持者可能要考虑进行"尖叫测试"来鼓励这样做。奥德怀尔(O'Dwyer)回忆了他参与的一个项目,在CTO的支持下,工程师们有三个月的时间来标记所有云资源。财务运营团队监控哪些资源被标记了。
尖叫的部分?"三个月后,我们开始字面上停止资源,移除访问权限,停止它们,然后等待并看谁尖叫。"
如果生产或测试资源中断,很明显这些都是必需的,财务运营团队会标记它们,然后将它们交还给相关团队。
不用说,奥德怀尔说,高管的赞助和支持对于这种练习至关重要。"我认为首席财务官和首席技术官可以做的最大的事情就是允许他们的团队这样做。"
一旦识别了工作负载和资源,就可以相应地分配成本。
奥德怀尔说:"许多公司转向的就是费用回收。"这意味着各个部门或产品团队将对照既定预算对他们的账单负责。"这会给他们带来负担。"
为什么收费政策是最佳实践
制定收费政策听起来可能像最后的手段,但对于奥德怀尔来说,"我认为这是最佳实践,因为它使工程师负责。"
毕竟,整个公司必须在其他也在云上运行的公司面前保持竞争力。他说:"您必须意识到您的利润率。"
所有这些都将帮助您在一定程度上有效管理云成本。但是,如果财务运营的部分角色是识别浪费并鼓励工程师尽可能高效地使用他们的资源,那么优化费率就是确保他们不会以高于其使用的减少容量的费率支付费用。
他说: "挑战在于确保您有灵活性,使工程师能够进行更改,同时公司不会因潜在的浪费承诺而超额承诺。"
这一直是工程师的一个挑战。众所周知,在固定期限内承诺资源可能会带来可观的折扣。但仅仅分析过去的使用情况就是一个重大的数据活动。预测可能会变成猜测。
与此同时,云提供商的定价和折扣结构随着其云产品的快速发展而变得复杂。竞价实例、储蓄计划、折扣计划和预留实例都提供了降低成本和将适当服务与公司工作负载匹配的机会。
这意味着财务运营规程必须有自动化的支持,以最大限度地提高组织的"有效节省率",即其云成本节省的比例。
雷兹尼克说:"您绝对必须具有自动化。"但他说,最好将其留给专家。"如果你自己动手,那它很可能不会好。"
ProsperOps的费率优化方法使用人工智能(AI)和自动化来监控客户的环境,识别潜在的节省成本的机会,并将其与云提供商的报价相匹配。
奥德怀尔说: "通过我们的自动化,我们进行客观工作。"而一个通常手动运行的财务运营团队在做出充分期限的严格承诺之前,必须对其基础架构看起来像什么有很好的理解。"
了解未来的工程变更需要大量的沟通,导致行动延误,错失节省机会。
他引用了一个客户的例子,该客户旨在处理黑色星期五和网络星期一的需求峰值。"该公司有40,000个资源更改,而我们的自动化对他们的折扣组合或基于承诺的折扣进行了3,100次调整,以确保他们在整个月份都有非常高的覆盖率。"
即使是最专注的FinOps专业人员也难以跟上这种步伐,哪怕他们忽略与亲人相处的愿望。"我们的自动化能力可以非常积极地弥补这种使用量激增,这种激增不是由工程师驱动的,而是由终端客户驱动的。"
这可能就是FinOps和云的关键。当人类专注于他们擅长的事情,相互协作并就目标达成共识,然后使用机器来实现目标时,可以获得最佳结果。当然,如果人类还记得在正确的时间关闭机器,那也有帮助。
本文在云云众生(yylives.cc/)首发,欢迎大家访问。