阿里云容器服务助力极氪荣获 FinOps 先锋实践者

作者:海迩

可信云评估是中国信息通信研究院下属的云计算服务和软件的专业评估体系,自 2013 年起历经十年发展,可信云服务评估体系已日臻成熟,成为政府支撑、行业规范、用户选型的重要参考。

2022 年 5 月国务院国资委制定印发《提高央企控股上市公司质量工作方案》,重点关注环境、社会及公司治理(ESG),提出要求"贯彻落实新发展理念,探索建立健全 ESG 体系"。FinOps、GreenOps 与 ESG 理念高度契合,云计算作为企业数字化转型的引擎和基石,面向云计算的成本优化与低碳运营将助力企业践行 ESG 发展理念,履行社会治理责任。

在此背景下,中国信息通信研究院正式发起"降本增效,绿色发展丨云成本优化与低碳运营先锋实践者"企业评选活动,通过甄选标杆案例树立云成本优化与低碳运营新范式、新技术下的先锋企业,助力云成本优化与低碳运营理念在企业中持续渗透并落地实践,提高企业上云用云价值,推动云计算产业绿色低碳发展。

此次 FinOps 成本优化的先锋实践者评选,极氪汽车在过去一年中,基于阿里云 FinOps 成本管理体系的积极实践,荣获此殊荣。通过阿里云容器服务提供的 ACK One 多集群管理、云原生资源画像等功能,对线上及线下数十套 K8s 集群,数千个 Pod 的资源使用情况做闲置检查,并优化发布策略,为集团优化近 25% 的资源用量,每年节省了数百万的 IT 成本投入。

客户简介

极氪汽车是一家以智能化、数字化、数据驱动的智能出行科技公司,秉承用户型企业理念,聚焦智能电动出行前瞻技术的研发,构建科技生态圈与用户生态圈,以"共创极致体验的出行生活"为使命,从产品创新、用户体验创新,再到商业模式创新,致力于为用户带来极致的出行体验。

2021 年,极氪 001 迅速崭露头角,仅用 110 天便创下了首款车型交付量"最快破万"的纪录。位居中国新能源汽车品牌销量前六的极氪汽车,去年 11 月份推出的极氪 009,在短短 76 天内便率先完成了首批交付,刷新了中国豪华纯电品牌交付速度的纪录。今年 6 月,极氪汽车再次交付了 10620 辆,成为连续保持五个月同比增长的唯一豪华纯电品牌。极氪 001 更成为全球最快突破 10 万辆销售的豪华车,再次稳居 30 万元以上纯电车型销冠。

公司业务加速发展,公司 IT 成本面临巨大挑战。作为支持公司履约交付、整车交付、支付结算等诸多核心系统的技术部门,团队几乎每天都需要应对不同规模的应用发布,且应用系统所需的云资源消耗日益增加。

客户痛点

多云混合架构,K8s 集群数量多、规模大,运维管理困难

线上线下使用来自于多个云厂商的不同环境,前期随着业务增长,容器集群数量及规模倍增,有限的团队规模下,难以兼顾到业务的稳定性及业务的快速发展。团队面临集群环境配置不一致,发布脚本缺乏标准,应用发布上线变得越来越困难,线上系统稳定性风险极大增加。

应用工作负载难以预估,缺乏数据可见性

Kubernetes 为容器资源管理提供了资源请求(Request)的语义描述。容器的 Request 一般基于人工经验填写,管理员会参考容器的历史利用率情况、应用的压测表现,并根据线上运行情况的反馈持续调整。

但基于人工经验的资源规格配置模式存在以下局限性:

为了保障线上应用的稳定性,管理员通常会预留相当数量的资源 Buffer 来应对上下游链路的负载波动,容器的 Request 配置会远高于其实际的资源利用率,导致集群资源利用率过低,造成大量资源浪费。

当集群分配率较高时,为了提升集群资源利用率,管理员会主动缩小 Request 配置,协调更多的资源容量。该操作会提升容器的部署密度,当应用流量上涨时会影响集群的稳定性。

完全依赖专家经验的管理方式无法适应规模的增长,随着应用数量增多,其管理效率会愈发降低。

预算预估困难,缺乏有效手段支撑企业 IT 精细化治理

在传统架构下,应用的成本摊销基于服务器维度。而云原生架构下费用模型不再完全等同于服务器,业务团队需要更准确的数据估算应用实际投入成本,从而为未来的预算预估做出合理规划。

解决方案

基于 ACK One 构建混合云模式下的 K8s 多集群管理

通过 ACK One 注册集群,用户可以在非 ACK 的 K8s 集群中使用 ACK 的产品化的可观察能力,节省您自己运维外部监控日志系统的成本,也可以统一监控日志系统,快速发现与诊断问题,同时降低运维成本。

通过 ACK 控制台查看注册集群成本分析:可以自定义 K8s 集群节点的成本,根据应用资源使用做成本拆分,多维度分析集群成本、命名空间成本和应用成本,并快速定位异常成本来源,帮助企业降本增效。

基于 ACK FinOps 套件洞察资源画像,提高整体利用率

ACK 为 K8s 原生的工作负载提供了资源画像的能力,通过对资源使用量历史数据的分析,可以提供容器粒度的资源规格推荐,有效简化了为容器配置 Request 和 Limit 的复杂度。同时,资源画像功能还在 ACK 控制台提供了可视化的交互页面,便于管理员快速分析应用资源规格的合理性,并进行资源规格配置的变更。

考虑到极氪线上应用较多,通过人工调整不同应用的参数所带来的工作量负担较大,而且调整后的数据无法同应用的发布流程结合,带来业务稳定性的隐患。为此,在项目落地的过程中,ACK 资源画像以 API 的形式提供了资源规格的推荐结果,并与极氪当前发布平台相结合,自动化的获取参数配置的最佳值,渲染发布模版,从而在保证业务稳定性的同时,极大的降低了整体资源使用成本。

建设成果

基于阿里云云原生产品,极氪技术中台团队目前所管理的集群,不仅能准确提供各业务、组织、资源等维度的成本数据,极大的提升了用云性价比,为公司提升整体超过 25% 以上计算资源利用率。

相关推荐
dessler13 小时前
云计算&虚拟化-kvm-克隆(clone)虚拟机
linux·运维·云计算
黄昏_16 小时前
在Springboot项目中实现将文件上传至阿里云 OSS
java·spring boot·后端·阿里云
孪生质数-16 小时前
国际环境和背景下的云计算领域
网络·科技·云计算
Linux运维老纪20 小时前
linux系统运维面试题(二)(Linux System Operations Interview Questions II)
linux·服务器·面试·云计算·运维开发·devops
2403_8894616820 小时前
智控水利:道品科技农业灌区自动化闸门引领农业灌溉新变革
大数据·网络·人工智能·经验分享·科技·自动化·云计算
努力的小T21 小时前
Linux tcpdump 详解教程
linux·运维·服务器·云计算·tcpdump
运维&陈同学1 天前
【zookeeper04】消息队列与微服务之zookeeper客户端访问
linux·后端·微服务·zookeeper·云原生·消息队列·云计算
壹只菜鸟1 天前
阿里云整理(一)
阿里云·云计算
HaoHao_0101 天前
阿里云快照:数据保护与恢复的重要工具
数据库·阿里云·云计算