史诗级云故障敲响警钟,应用保障不能没有“连续键”!

近日,知名云服务商出现一次史诗级的云故障:全球所有区域/所有服务同时异常,故障持续长达3小时之多,云上众多应用受到极大影响。

如今,在一个充满不确定性和复杂性的数字化时代,哪怕是顶级云服务商亦不能避免各种故障的发生。这无疑再次为广大企业与组织敲响警钟,即当数字化转型步入深水区,业务应用全面走向线上化和智能化之际,我们的业务连续性到底应该如何保障?

正如AWS CTO Wanner所言:"Everything fails, all the time。"我们需要接受任何时候故障都可能会发生,既然故障无法避免,那么需要做的就是预测什么时候出现故障、发现故障原因,并确保业务连续性受到最小影响,将损失降到最低。

因此,企业数字化转型中缺少不了应用保障的"连续键",应用级灾备的建设已成为企业数字化转型中的一道必答题。

应用保障不能没有"连续键"

塔勒布的《反脆弱》认为,不确定性的世界充满不确定性和脆弱性,反脆弱就是在波动和不确定中避免损失,甚至获利。

显然,在数字化时代中,随着新技术、新场景、新应用的大量涌现,企业的业务环境和市场环境早已今非昔,充斥着复杂性与不确定性,而数字化转型则是企业应对不确定性和脆弱性最为有效的方法。

Gartner《2023年CIO和技术高管议程中国篇》报告就显示,36%的中国企业将数字化转型作为企业最优先业务,并且在积极加大投入以响应市场竞争的需求。

这其中,业务连续性的保障又是重中之重。企业与组织数字化转型的不断深入,业务全面走向数据驱动和智能化的同时,外部攻击、人为错误、运行故障、自然灾害等对业务连续性的影响日渐突出。业务一旦中断,损失往往是企业不能承受之重,业务应用保障已不能没有"连续键"。

从政策法规要求层面来看,《网络安全法》、《等保2.0》、《商业银行业务连续性监管指引》等政策法规陆续颁发,标志着法律法规对于企业的数据安全与业务连续性监管要求日趋严格。

不过,传统灾备方案正成为业务连续性的"拦路虎"。在多云架构、复杂业务和海量数据的趋势下,企业自身IT环境走向复杂化,传统灾备方案应用级观测难、建设难度大、故障定位难和应用级可用性难保障,很难适用现代化复杂应用环境,

"一个省级政务云的办公与公文审批就有将近100个关联应用、上万名用户,应用之间依赖关系盘根错节。业务系统的复杂导致各种运维难题,并且问题定位和根因分析困难。"爱数技术专家介绍道,"企业与组织需要升级全新一代的应用级灾备,实现端到端的业务连续性管理。"

应用级灾备,为业务按下"连续键"

如何真正构建起全新一代应用级的灾备体系?

爱数认为,构建新一代的应用级灾备需要将灾备与可观性性技术进行深度融合,然后分为四个步骤:应用识别、应用级灾备建模、故障监控与定位和应用级灾难恢复。

既然复杂性已是一种"新常态",爱数的思路是第一步先打破传统灾备的局限,帮助企业与组织了解和认知自身应用环境的复杂性。正所谓"知己知彼方能百战不殆",只有充分识别海量复杂环境、应用架构特点,后续进行辅助故障设计和灾备建模才能有的放矢。

在完成对于海量复杂环境的识别之后,就可以进行应用灾备建模,包括应用系统可观测性、灾备容灾和灾难恢复计划建模,实现灾难恢复计划工作的前置。之后,故障监控与定位就像是一双"慧眼",可以帮助企业与组织进行健康度观察和故障的快速定位,有效缩短故障半径,为接下来的灾难恢复提供极大便利。第四步则是应用级灾难恢复,实现灾难恢复、恢复验证、灾难恢复演练的快速进行,确保业务连续性,让故障发生造成的损失降到最低。

"新一代的应用级灾备覆盖了架构与业务发展、灾备保护、故障定位、灾难恢复、故障回迁的全流程,实现1-5-10模型,即一分钟发现问题,五分钟定位问题,十分钟拉起业务,从事前、事中和事后保障业务的连续性。"爱数技术专家如是说。

事实上,目前市场中相关灾备方案并不少,但像爱数这种将灾备与可观测性技术融合的创新组合式解决方案则非常稀缺。得益于在灾备、可观测领域的多年实践,爱数敏锐地观察到灾备与可观测性的融合,可以彻底突破传统备份的局限,真正让应用级灾备为复杂应用环境保驾护航。

用理念与技术变革灾备

众所周知,过去的灾备体系"重中有余而灵巧不足",企业一旦投入巨资把灾备体系建成,后续几乎固定不动;但前端应用与场景如今却是瞬息万变,让应用的保障需求与灾备体系逐渐形成鸿沟,愈发匹配不上。

为此,爱数大胆将灾备与可观测性进行深度融合,构建起新一代应用灾备解决方案,在理念和技术层面彻底重塑了灾备。

在理念层面,爱数真正将"数据驱动"理念融入到灾备体系之中。灾备与可观测性两个产品之所以可以做到深度融合,得益于底层数据的打通。在统一引擎和技术栈的帮助下,爱数采用SuperAgent同一个客户端来抓取数据,并打通备份数据湖与机器数据湖,实现应用数据与灾备之间的关联。

在"数据驱动"理念的加持下,爱数新一代应用级灾备解决方案就能够对复杂、多变的应用环境进行梳理和识别,并能够观测到应用的持续变化,将应用的保障需求与灾备体系形成有效的对接。

在技术层面,爱数凭借多年在灾备领域和可观测领域的实践和经验,在应用识别、应用级灾备建模、故障监控与定位等环节中构建数据智能能力,通过模型的构建以及持续学习、智能分析,来实现应用级灾备多个环节的"化繁为简",真正让应用级灾备变得可用和好用。

以应用系统环境的识别与分级为例,一些应用规模越大的企业动辄需要花费数月时间来完成这个环节,不仅费时费力费人,效果往往还不理想;而爱数利用多年在灾备领域积累形成的数据智能能力,实现应用系统环境的快速识别与分析。

"灾备不应该成为企业的负担。爱数希望通过新一代应用级灾备方案来改变过去僵化的灾备方式,让企业聚焦应用与业务,形成灾备的管理能力,从容应对各种不确定性。"爱数技术专家最后表示道。

相关推荐
一尘之中1 小时前
使用 PyTorch TunableOp 加速 ROCm 上的模型
人工智能·pytorch·学习
Eric.Lee20212 小时前
数据集-目标检测系列- 牵牛花 检测数据集 morning_glory >> DataBall
人工智能·python·yolo·目标检测·计算机视觉·牵牛花检测
搏博2 小时前
卷积神经网络(CNN)中的全连接层(Fully Connected Layer)
人工智能·神经网络·cnn
如生命般费解的谜团4 小时前
LLM学习笔记(7)Scaled Dot-product Attention
人工智能·笔记·学习·语言模型·json
FreeIPCC6 小时前
电话机器人是什么?
大数据·人工智能·语言模型·机器人·开源·信息与通信
字节数据平台7 小时前
火山引擎数据飞轮探索零售企业大促新场景:下放营销活动权限
大数据·人工智能
努力学习的啊张7 小时前
消息称三星正与 OpenAI 洽谈,有望令 Galaxy AI 整合ChatGPT,三星都要和chatgpt合作了,你会使用chatgpt了吗?
人工智能·chatgpt
Together_CZ7 小时前
GPT-4 Technical Report——GPT-4技术报告
人工智能·gpt-4
huaqianzkh8 小时前
人工智能大趋势下软件开发的未来
人工智能
酱香编程,风雨兼程10 小时前
深度学习——多层感知机的从零开始实现和简洁实现
人工智能·深度学习