自动化:现代事件管理的关键所在

了解为什么在当今数字环境下,自动化已成为应对复杂快速变化事件的必要手段。

译自 Automation Is the Ticket for Modern Incident Management

事件管理长期以来一直是IT运维的重要组成部分。当问题出现时,组织必须快速作出回应,以减轻影响并恢复正常运作。

然而,近年来事件的性质和现代IT生态的复杂度已经发生了巨大变化。为了正面应对这些挑战,组织越来越多地采用自动化作为事件管理策略的基石,以提高平均响应时间、减少重复工作和降低成本。

当今的事件管理面临的挑战

由于支出激增,事件每年给组织带来高达数千万美元的损失。根据Constellation Research最近发布的IT运维和事件管理状况报告,组织仍然极易遭受重创,导致灾难性的宕机时间,破坏了客户信任和员工生产力。

需要升级的事件有多少?

随着事件升级频率逐年增加,补救的代价也日益高昂。 当事件升级发生时,多个团队和专家需要参与进来,占用了本可以用于其他地方的宝贵时间和资源。

在Constellation报告引用的2023年Dimensional Research调查中,受访者表示将近67%的事件需要升级,比前一年暴涨了12%。不仅如此,还有57%的受访者表示,他们有60%以上的事件经常被升级,导致多名熟练资源花费大量时间处理重复或可定制化的事件,这在人力方面的成本远高于基础设施方面。

事件应对的成本是多少?

根据Constellation的报告,对于拥有5000名或更多员工的公司来说,近12%的重大事件造成的损失在100万美元或以上,还有2%的公司报告称损失在500万美元或以上。此外,这些大企业中有48%每年遭遇6次或更多次重大事件,其中9%的公司每年遭遇21次或以上的重大事件。对近半数的这些公司来说,每年用于事件解决的成本高达2000万至1亿美元,一个令人震惊的高昂数额,这仅仅是为了辨别系统正常运行。

[自动化事件响应 - 未来所在](#自动化事件响应 - 未来所在 "#%E8%87%AA%E5%8A%A8%E5%8C%96%E4%BA%8B%E4%BB%B6%E5%93%8D%E5%BA%94---%E6%9C%AA%E6%9D%A5%E6%89%80%E5%9C%A8")

在一个无法单靠值班和DevOps团队匹配环境复杂度进行扩展的世界里,提高生产力是唯一合理的解决方案。自动化可以帮助创建按业务需求规模运行的自主IT,而不是等待站点可靠性工程师(SRE)来管理它。受访者也表示认同。

Constellation的报告发现,99%的受访者希望看到某种形式的AI或自动化来避免人工干预。同样,89%的受访者建议拥有高度自动化的公司事件响应最为有效。

Dataiku的Louis-Philippe Kronek说:"衡量自动化节省的时间很容易。每次运行自动化时,您就可以计算出省去的工作分钟和小时。上个月自动触发了近170次补救,保守估计至少节省了20多人日的DevOps工作,同时也提高了应用性能。"

Kronek继续说:"出于所有这些原因,当我们引入每个自动化时,我们会简短庆祝它带来的好处,然后快速思考:'我们还可以自动化什么?'"

在近一半事件都是简单重复的世界里,自动化不再是奢侈,而是必需。它使组织能够以前所未有的效率和准确性快速检测、响应和解决事件。但最重要的是,它将增强IT基础设施的弹性,并释放宝贵的人力资源来专注于更高价值的任务。

结论

事件管理的成本对各种规模的组织来说都是重大关切。然而,通过采用自动化,您不仅可以降低这些成本,还可以提高事件管理流程的效率和效果,就像我们一些客户已经看到的那样。随着技术的不断进步,自动化将在确保弹性和可持续性方面发挥越来越关键的作用。

Constellation Research的副总裁兼首席分析师Andy Thurai说:"现在是IT领导者重新构想他们的IT运维,使其更有效率的时候了。这涉及尽快解决事件,以便为系统建立数字弹性。否则,下一次重大事件可能会是一个致命打击。"

在Shoreline,我们的目标是帮助生产运维团队提高生产力,并通过逐步实现自动化来应对事件管理。我们的云编排层用于自动化事件响应,可以轻松在整个基础设施中搜索、诊断并自动修复问题,以降低重大中断的风险并提高弹性。

点击此处下载完整报告。

相关推荐
DigitalOcean15 天前
拒绝 GPU 集群资源浪费:教你打造自动化降本的 AI 运维 Agent
agent·自动化运维
亿牛云爬虫专家21 天前
AIGC数据引擎的基石:图库抓取架构从单机到云原生的演进与实战
云原生·aigc·爬虫代理·自动化运维·数据抓取·图库·数据引擎
無名路人25 天前
Zsh 脚本 + VS Code 任务:NestJS + Vue3 一键部署到 1Panel
运维·后端·自动化运维
舒一笑1 个月前
客户现场没有外网,Docker 服务怎么部署?
运维·后端·自动化运维
荧焰1 个月前
Kubernetes 监控架构升级:引入 Prometheus Operator
自动化运维
荧焰1 个月前
Prometheus 监控系统入门指南
自动化运维
殷紫川1 个月前
告别手动部署噩梦:CI/CD 持续交付全链路实战
运维·架构·自动化运维
竹林8181 个月前
用Python脚本批量发布Markdown文章,我踩了三个坑才搞定
python·markdown·自动化运维
AustinXu1 个月前
AI时代,运维工程师如何不被淘汰?从 Ops 到 Platform Engineer 的思维跃迁
自动化运维
竹林8181 个月前
用Python requests搞定Cookie登录,我绕过了三个大坑才成功
爬虫·python·自动化运维