自动化:现代事件管理的关键所在

了解为什么在当今数字环境下,自动化已成为应对复杂快速变化事件的必要手段。

译自 Automation Is the Ticket for Modern Incident Management

事件管理长期以来一直是IT运维的重要组成部分。当问题出现时,组织必须快速作出回应,以减轻影响并恢复正常运作。

然而,近年来事件的性质和现代IT生态的复杂度已经发生了巨大变化。为了正面应对这些挑战,组织越来越多地采用自动化作为事件管理策略的基石,以提高平均响应时间、减少重复工作和降低成本。

当今的事件管理面临的挑战

由于支出激增,事件每年给组织带来高达数千万美元的损失。根据Constellation Research最近发布的IT运维和事件管理状况报告,组织仍然极易遭受重创,导致灾难性的宕机时间,破坏了客户信任和员工生产力。

需要升级的事件有多少?

随着事件升级频率逐年增加,补救的代价也日益高昂。 当事件升级发生时,多个团队和专家需要参与进来,占用了本可以用于其他地方的宝贵时间和资源。

在Constellation报告引用的2023年Dimensional Research调查中,受访者表示将近67%的事件需要升级,比前一年暴涨了12%。不仅如此,还有57%的受访者表示,他们有60%以上的事件经常被升级,导致多名熟练资源花费大量时间处理重复或可定制化的事件,这在人力方面的成本远高于基础设施方面。

事件应对的成本是多少?

根据Constellation的报告,对于拥有5000名或更多员工的公司来说,近12%的重大事件造成的损失在100万美元或以上,还有2%的公司报告称损失在500万美元或以上。此外,这些大企业中有48%每年遭遇6次或更多次重大事件,其中9%的公司每年遭遇21次或以上的重大事件。对近半数的这些公司来说,每年用于事件解决的成本高达2000万至1亿美元,一个令人震惊的高昂数额,这仅仅是为了辨别系统正常运行。

[自动化事件响应 - 未来所在](#自动化事件响应 - 未来所在 "#%E8%87%AA%E5%8A%A8%E5%8C%96%E4%BA%8B%E4%BB%B6%E5%93%8D%E5%BA%94---%E6%9C%AA%E6%9D%A5%E6%89%80%E5%9C%A8")

在一个无法单靠值班和DevOps团队匹配环境复杂度进行扩展的世界里,提高生产力是唯一合理的解决方案。自动化可以帮助创建按业务需求规模运行的自主IT,而不是等待站点可靠性工程师(SRE)来管理它。受访者也表示认同。

Constellation的报告发现,99%的受访者希望看到某种形式的AI或自动化来避免人工干预。同样,89%的受访者建议拥有高度自动化的公司事件响应最为有效。

Dataiku的Louis-Philippe Kronek说:"衡量自动化节省的时间很容易。每次运行自动化时,您就可以计算出省去的工作分钟和小时。上个月自动触发了近170次补救,保守估计至少节省了20多人日的DevOps工作,同时也提高了应用性能。"

Kronek继续说:"出于所有这些原因,当我们引入每个自动化时,我们会简短庆祝它带来的好处,然后快速思考:'我们还可以自动化什么?'"

在近一半事件都是简单重复的世界里,自动化不再是奢侈,而是必需。它使组织能够以前所未有的效率和准确性快速检测、响应和解决事件。但最重要的是,它将增强IT基础设施的弹性,并释放宝贵的人力资源来专注于更高价值的任务。

结论

事件管理的成本对各种规模的组织来说都是重大关切。然而,通过采用自动化,您不仅可以降低这些成本,还可以提高事件管理流程的效率和效果,就像我们一些客户已经看到的那样。随着技术的不断进步,自动化将在确保弹性和可持续性方面发挥越来越关键的作用。

Constellation Research的副总裁兼首席分析师Andy Thurai说:"现在是IT领导者重新构想他们的IT运维,使其更有效率的时候了。这涉及尽快解决事件,以便为系统建立数字弹性。否则,下一次重大事件可能会是一个致命打击。"

在Shoreline,我们的目标是帮助生产运维团队提高生产力,并通过逐步实现自动化来应对事件管理。我们的云编排层用于自动化事件响应,可以轻松在整个基础设施中搜索、诊断并自动修复问题,以降低重大中断的风险并提高弹性。

点击此处下载完整报告。

相关推荐
漫谈网络10 天前
SSHv2 密钥交换(Key Exchange)详解
运维·ssh·自动化运维·devops·paramiko·sshv2
CJWbiu18 天前
Github Action + docker 实现自动化部署
前端·自动化运维
rainsc1 个月前
Singularity使用
运维·自动化运维
周天天1 个月前
linux 服务器一步部署jar包,并设置开机自启动和使用systemcl进行服务管理
运维·自动化运维
ygria1 个月前
0成本,使用Github Action做一个外语PDF翻译工作流
github·自动化运维
Stirner1 个月前
MCP 实现网站自动监控,口语化批量运维域名
http·llm·自动化运维
ygria2 个月前
用Cloudflare Worker做一个微信封面图生成服务
自动化运维
中二少年学编程2 个月前
electron+robotjs实现自动化办公功能,使用robotjs时的报错解决
electron·自动化运维
外滩运维专家2 个月前
多场景消息推送方案实践:基于Spug推送平台的技术实现
后端·敏捷开发·自动化运维
IT成长日记2 个月前
Ansible命令行模式常用模块使用案例(三)
linux·ansible·自动化运维·ad-hoc 模式)