自动化:现代事件管理的关键所在

了解为什么在当今数字环境下,自动化已成为应对复杂快速变化事件的必要手段。

译自 Automation Is the Ticket for Modern Incident Management

事件管理长期以来一直是IT运维的重要组成部分。当问题出现时,组织必须快速作出回应,以减轻影响并恢复正常运作。

然而,近年来事件的性质和现代IT生态的复杂度已经发生了巨大变化。为了正面应对这些挑战,组织越来越多地采用自动化作为事件管理策略的基石,以提高平均响应时间、减少重复工作和降低成本。

当今的事件管理面临的挑战

由于支出激增,事件每年给组织带来高达数千万美元的损失。根据Constellation Research最近发布的IT运维和事件管理状况报告,组织仍然极易遭受重创,导致灾难性的宕机时间,破坏了客户信任和员工生产力。

需要升级的事件有多少?

随着事件升级频率逐年增加,补救的代价也日益高昂。 当事件升级发生时,多个团队和专家需要参与进来,占用了本可以用于其他地方的宝贵时间和资源。

在Constellation报告引用的2023年Dimensional Research调查中,受访者表示将近67%的事件需要升级,比前一年暴涨了12%。不仅如此,还有57%的受访者表示,他们有60%以上的事件经常被升级,导致多名熟练资源花费大量时间处理重复或可定制化的事件,这在人力方面的成本远高于基础设施方面。

事件应对的成本是多少?

根据Constellation的报告,对于拥有5000名或更多员工的公司来说,近12%的重大事件造成的损失在100万美元或以上,还有2%的公司报告称损失在500万美元或以上。此外,这些大企业中有48%每年遭遇6次或更多次重大事件,其中9%的公司每年遭遇21次或以上的重大事件。对近半数的这些公司来说,每年用于事件解决的成本高达2000万至1亿美元,一个令人震惊的高昂数额,这仅仅是为了辨别系统正常运行。

[自动化事件响应 - 未来所在](#自动化事件响应 - 未来所在 "#%E8%87%AA%E5%8A%A8%E5%8C%96%E4%BA%8B%E4%BB%B6%E5%93%8D%E5%BA%94---%E6%9C%AA%E6%9D%A5%E6%89%80%E5%9C%A8")

在一个无法单靠值班和DevOps团队匹配环境复杂度进行扩展的世界里,提高生产力是唯一合理的解决方案。自动化可以帮助创建按业务需求规模运行的自主IT,而不是等待站点可靠性工程师(SRE)来管理它。受访者也表示认同。

Constellation的报告发现,99%的受访者希望看到某种形式的AI或自动化来避免人工干预。同样,89%的受访者建议拥有高度自动化的公司事件响应最为有效。

Dataiku的Louis-Philippe Kronek说:"衡量自动化节省的时间很容易。每次运行自动化时,您就可以计算出省去的工作分钟和小时。上个月自动触发了近170次补救,保守估计至少节省了20多人日的DevOps工作,同时也提高了应用性能。"

Kronek继续说:"出于所有这些原因,当我们引入每个自动化时,我们会简短庆祝它带来的好处,然后快速思考:'我们还可以自动化什么?'"

在近一半事件都是简单重复的世界里,自动化不再是奢侈,而是必需。它使组织能够以前所未有的效率和准确性快速检测、响应和解决事件。但最重要的是,它将增强IT基础设施的弹性,并释放宝贵的人力资源来专注于更高价值的任务。

结论

事件管理的成本对各种规模的组织来说都是重大关切。然而,通过采用自动化,您不仅可以降低这些成本,还可以提高事件管理流程的效率和效果,就像我们一些客户已经看到的那样。随着技术的不断进步,自动化将在确保弹性和可持续性方面发挥越来越关键的作用。

Constellation Research的副总裁兼首席分析师Andy Thurai说:"现在是IT领导者重新构想他们的IT运维,使其更有效率的时候了。这涉及尽快解决事件,以便为系统建立数字弹性。否则,下一次重大事件可能会是一个致命打击。"

在Shoreline,我们的目标是帮助生产运维团队提高生产力,并通过逐步实现自动化来应对事件管理。我们的云编排层用于自动化事件响应,可以轻松在整个基础设施中搜索、诊断并自动修复问题,以降低重大中断的风险并提高弹性。

点击此处下载完整报告。

相关推荐
刘大猫261 天前
三、MyBatis核心配置文件详解
人工智能·智能合约·自动化运维
SkyWalking中文站2 天前
SkyWalking Ruby 快速开始与原理介绍
监控·自动化运维
神秘的土鸡5 天前
Linux中WgCloud的服务器与客户端监控系统(完整部署教程)
linux·运维·nginx·adb·监控·自动化运维
星辰大海的精灵6 天前
分布式系统中使用OTEL、Jaeger和Prometheus监控服务
后端·架构·自动化运维
SRETALK1 个月前
告警事件如何与 CMDB 打通附加更多元信息
运维·后端·自动化运维
刘大猫262 个月前
windows server2016搭建AD域服务器
人工智能·云计算·自动化运维
ygria2 个月前
Automa详解:浏览器行为自动化和我的使用
自动化运维
大卫talk2 个月前
Docker网络与数据卷持久化
前端·docker·自动化运维
豆豆豆豆变2 个月前
Docker轻量级可视化工具Portainer
docker·容器·自动化运维
沛沛老爹2 个月前
什么是 DevOps 自动化?
大数据·ci/cd·自动化·自动化运维·devops