了解为什么在当今数字环境下,自动化已成为应对复杂快速变化事件的必要手段。
译自 Automation Is the Ticket for Modern Incident Management 。
事件管理长期以来一直是IT运维的重要组成部分。当问题出现时,组织必须快速作出回应,以减轻影响并恢复正常运作。
然而,近年来事件的性质和现代IT生态的复杂度已经发生了巨大变化。为了正面应对这些挑战,组织越来越多地采用自动化作为事件管理策略的基石,以提高平均响应时间、减少重复工作和降低成本。
当今的事件管理面临的挑战
由于支出激增,事件每年给组织带来高达数千万美元的损失。根据Constellation Research最近发布的IT运维和事件管理状况报告,组织仍然极易遭受重创,导致灾难性的宕机时间,破坏了客户信任和员工生产力。
需要升级的事件有多少?
随着事件升级频率逐年增加,补救的代价也日益高昂。 当事件升级发生时,多个团队和专家需要参与进来,占用了本可以用于其他地方的宝贵时间和资源。
在Constellation报告引用的2023年Dimensional Research调查中,受访者表示将近67%的事件需要升级,比前一年暴涨了12%。不仅如此,还有57%的受访者表示,他们有60%以上的事件经常被升级,导致多名熟练资源花费大量时间处理重复或可定制化的事件,这在人力方面的成本远高于基础设施方面。
事件应对的成本是多少?
根据Constellation的报告,对于拥有5000名或更多员工的公司来说,近12%的重大事件造成的损失在100万美元或以上,还有2%的公司报告称损失在500万美元或以上。此外,这些大企业中有48%每年遭遇6次或更多次重大事件,其中9%的公司每年遭遇21次或以上的重大事件。对近半数的这些公司来说,每年用于事件解决的成本高达2000万至1亿美元,一个令人震惊的高昂数额,这仅仅是为了辨别系统正常运行。
[自动化事件响应 - 未来所在](#自动化事件响应 - 未来所在 "#%E8%87%AA%E5%8A%A8%E5%8C%96%E4%BA%8B%E4%BB%B6%E5%93%8D%E5%BA%94---%E6%9C%AA%E6%9D%A5%E6%89%80%E5%9C%A8")
在一个无法单靠值班和DevOps团队匹配环境复杂度进行扩展的世界里,提高生产力是唯一合理的解决方案。自动化可以帮助创建按业务需求规模运行的自主IT,而不是等待站点可靠性工程师(SRE)来管理它。受访者也表示认同。
Constellation的报告发现,99%的受访者希望看到某种形式的AI或自动化来避免人工干预。同样,89%的受访者建议拥有高度自动化的公司事件响应最为有效。
Dataiku的Louis-Philippe Kronek说:"衡量自动化节省的时间很容易。每次运行自动化时,您就可以计算出省去的工作分钟和小时。上个月自动触发了近170次补救,保守估计至少节省了20多人日的DevOps工作,同时也提高了应用性能。"
Kronek继续说:"出于所有这些原因,当我们引入每个自动化时,我们会简短庆祝它带来的好处,然后快速思考:'我们还可以自动化什么?'"
在近一半事件都是简单重复的世界里,自动化不再是奢侈,而是必需。它使组织能够以前所未有的效率和准确性快速检测、响应和解决事件。但最重要的是,它将增强IT基础设施的弹性,并释放宝贵的人力资源来专注于更高价值的任务。
结论
事件管理的成本对各种规模的组织来说都是重大关切。然而,通过采用自动化,您不仅可以降低这些成本,还可以提高事件管理流程的效率和效果,就像我们一些客户已经看到的那样。随着技术的不断进步,自动化将在确保弹性和可持续性方面发挥越来越关键的作用。
Constellation Research的副总裁兼首席分析师Andy Thurai说:"现在是IT领导者重新构想他们的IT运维,使其更有效率的时候了。这涉及尽快解决事件,以便为系统建立数字弹性。否则,下一次重大事件可能会是一个致命打击。"
在Shoreline,我们的目标是帮助生产运维团队提高生产力,并通过逐步实现自动化来应对事件管理。我们的云编排层用于自动化事件响应,可以轻松在整个基础设施中搜索、诊断并自动修复问题,以降低重大中断的风险并提高弹性。