云原生团队如何实现加量不加价

随着云原生技术的快速发展,越来越多的业务实现了上云,云原生团队在工作量增大的同时也随之变成了所有问题对接的入口,如何承担这个保姆的角色成为了一道难题,故障的定界和问题证据的交接更是让人头疼的问题。在这种情况下需要有工具帮助云原生团队快速完成故障的定界与故障的根因分析,并进行相关数据证据整理收集,做好接棒和交棒工作,才能摆脱保姆角色,实现加量不加价。

面临的挑战

一方面要支撑新业务的快速上线,另一方面又要保证稳定性。云原生团队也逐步成为底层基础设施的供给方,就变成了有了问题先找云原生团队看看再说,导致公司内云原生团队在同等团队资源情况下承担了越来越多的工作压力,而且常常忙于疲于应付来自各方的问题。

  • 故障的定界与根因定位困难: 随着业务规模的扩大,系统故障变得更加复杂,团队需要更快速、更准确地定位故障,并找到问题的根本原因,以便有效解决问题。
  • **问题证据的交接不清:**多团队协作中,由于故障处理和交接不够清晰,导致问题的处理难以延续和交接,增加了团队间沟通和协作的难度。
  • **工作量剧增:**团队需要处理更多的容器部署、监控、维护和故障排查工作,使得团队工作量急剧增加。
  • 资源限制: 虽然工作量增加,但团队的资源并没有得到相应的增加,这导致团队面临了资源不足的挑战,如人手不足、时间紧迫等。


    AiOps无法解决核心问题

    目前也有很多团队通过引入AIOps相关工具来试图解决眼下的问题,它的引入也确实帮很多团队解决了很多自动化、智能化运维的问题。但是由于当前AIOps的概念是过大的,导致没有清晰的产品边界和落地的核心能力项,另一方面现有很多产品并不能给出其推理根因的证据链数据,使得相关团队在实际处置中仍需要人工介入。

  • 结论的可解释性: AIOps给出概率性的故障定位和根因分析,但并不能给出可解释的结论,同时也不能根据结论立即采取行动,仍需要人工介入梳理。

  • **无法进行故障定界与流程闭环:**多团队协同工作中,仍需要相关数据及进行佐证并进行工作的交接,才能形成排障流程的闭环。同时故障处置需要可行动的结论才能够展开,目前仍都需要人工参与。

  • **专家经验的重要性:**在涉及到特定领域的复杂问题时,AIOps 的结论仍需要相关领域的专家进行分析和验证。

在引入了很多工具后往往没有从根本上帮助团队提高能效,反而增加了学习成本和新的维护项。


需要有工具能够指明方向

Kindling-OriginX 通过自动化分析每条 Trace,找出 Trace 中节点 Span 突变的根因,并自动关联各种数据生成可行动、可解释的故障根因报告。相关团队可以由此快速完成故障的定界与数据证据收集,即可迅速展开标准化排障处置与故障问题交接。将云原生团队从保姆的角色中解放出来,能够将更多精力放在基础设施能力建设,为业务方提供更高效稳定的云原生技术底座。


结语

在云原生团队承担更多责任和职能的情况下,如何保证工作效率和质量是一个目前亟待解决的问题。Kindling-OriginX 的思路是通过自动化分析每条 Trace,找出 Trace 中节点 Span 突变的根因,关联各种数据证明推理的准确性,让团队能够更加清晰地完成故障定界与根因分析,为业务方提供强有力的支撑,帮助团队实现加量不加价。

相信随着技术的发展会有更多的工具和方法能够帮助到云原生团队来更好地应对各种挑战,也欢迎大家和我们一起讨论自己团队面临的挑战与解法。

相关推荐
nini_boom43 分钟前
**论文初稿撰写工具2025推荐,高效写作与智能辅助全解析*
大数据·python·信息可视化
理想三旬1 小时前
关系数据库
数据库
小园子的小菜1 小时前
Elasticsearch高阶用法实战:从数据建模到集群管控的极致优化
大数据·elasticsearch·搜索引擎
无心水3 小时前
【分布式利器:RocketMQ】2、RocketMQ消息重复?3种幂等方案,彻底解决重复消费(附代码实操)
网络·数据库·rocketmq·java面试·消息幂等·重复消费·分布式利器
源码之家3 小时前
机器学习:基于大数据二手房房价预测与分析系统 可视化 线性回归预测算法 Django框架 链家网站 二手房 计算机毕业设计✅
大数据·算法·机器学习·数据分析·spark·线性回归·推荐算法
q***98523 小时前
基于人脸识别和 MySQL 的考勤管理系统实现
数据库·mysql
l1t4 小时前
用SQL求解advent of code 2024年23题
数据库·sql·算法
炸裂狸花猫4 小时前
开源监控体系Prometheus & Thanos & Grafana & Alertmanager
云原生·开源·prometheus·监控·thanos
布吉岛没有岛_4 小时前
Hadoop学习_week1
大数据·hadoop
办公解码器4 小时前
Excel工作表打开一次后自动销毁文件,回收站中都找不到
数据库·excel