🔥🔥双十一,阿里云又双叒出问题了

阿里云又挂了

就在双十一热火朝天的进行时,阿里云又双叒出问题了

为什么说又,因为就在不久前,语雀就因为云服务问题出现了故障,在8小时后才得以恢复。 但这次故障影响的范围较上次相比就大得多了,不但语雀出现了问题,淘宝、钉钉等APP均收到了影响,许多依赖阿里云的产品也受到了影响。 "淘宝又崩了""闲鱼崩了" "阿里云盘崩了""钉钉崩了" 等话题陆续登上热搜。知道的以为云服务出现了问题,不知道的还以为马云跑路了。

不久后阿里云发布公告,确定了影响的范围

大约在8点左右,服务陆续恢复

不知道是否有了上次的经验,这次修复问题的速度快了很多。只用的三个小时就修复了问题。 上次语雀出现了问题,给广大用户赠送了会员,不知道这次故障又能给大家带来多少"福利"。

如何处理故障

说完阿里,要是真是我们在实际遇到了这种问题改怎么处理呢

  1. 首先我们要确认故障发生的原因,有可能虽然是我们负责的服务在不停的报错,但问题的根源不在我们这里,这时我们要及时的向上反馈,找到上游的同学,共同确定问题的原因
  2. 如果在修改配置或上线代码后发生了报错,不要想 首要的就是将配置或代码回滚,恢复问题比确认原因更加重要,问题可以下来后慢慢复盘,但对用户造成的影响是很大的。
  3. 如果自己掌控不住局面或者确定不了原因,及时摇人。还是那句话,优先解决问题,其他的都是次要的。
  4. 如果确定了问题的原因,及时向上级和受影响的团队说明原因,千万不要闷头一直干,每当有进展及时通报。在制定修复的临时方案时也最好拉上团队的小伙伴,避免二次问题。每次刷数据或者修改的代码上线前一定要第二个人review,不然忙中出错就更是添乱。如果时间充裕,能有测试同学帮忙测试那是最好的。
  5. 在问题解决后,也要总结经验教训,无论是好的还是坏的。这对我们都是一次成长,做的好的地方在团队内可以推广,形成制度规范。做的坏的也找原因,避免下次出现同样的问题。

尾声

有一说一,阿里的技术能力在国内也是数一数二的,但在近期却频繁发生这样的问题,不仅是对自身产品的不负责,更是对广大用户的不负责。异地多活这种不应该只出现在面试中,更应该在实际中落地。作为技术开发者,任何时候都要对系统保持敬畏之心,一个小小bug就可能导致业务上的重大损失。

相关推荐
qq_2975746711 小时前
SpringBoot项目长时间未访问,Tomcat临时文件夹被删除?解决方案来了
spring boot·后端·tomcat
wbs_scy12 小时前
Linux 进阶指令实操指南:文件查看、时间管理、搜索压缩全场景覆盖(附高频案例)
linux·运维·服务器
一个有梦有戏的人12 小时前
Python3基础:函数基础,解锁模块化编程新技能
后端·python
Lethehong12 小时前
实测可用|一文搞定OpenClaw部署,免费kimi-k2.5+飞书远程,新手也能秒上手
linux·运维·服务器·玩转openclaw·云端创意实践
逍遥德12 小时前
Sring事务详解之02.如何使用编程式事务?
java·服务器·数据库·后端·sql·spring
小草cys13 小时前
在 openEuler 上安装 DDE 图形桌面环境(适用于华为鲲鹏服务器/PC)
运维·服务器
天才奇男子20 小时前
HAProxy高级功能全解析
linux·运维·服务器·微服务·云原生
qq_2975746720 小时前
【实战教程】SpringBoot 实现多文件批量下载并打包为 ZIP 压缩包
java·spring boot·后端
❀͜͡傀儡师21 小时前
centos 7部署dns服务器
linux·服务器·centos·dns