B 站和小红书又又又崩了,罪魁祸首竟然又是他。。。

大家好,我是凌晨。

今天上午10点左右,我打开B站发现无法刷新视频列表和评论区,收藏夹和弹幕也均不可用。

原以为是手机网络问题,换网络重启手机都还是不行,第一时间打开微博,果然,B站崩了的新闻荣登榜首,小红书崩了的新闻也紧随其后。

不过,一般情况下,像这种大规模平台的这么多功能一起崩溃了显然是不太对劲的,猜测大概率是网关或者一些底层的模块崩掉了。

在10:04,也就是 B 站崩掉的时候,阿里云发布了一个上海可用区N网络访问异常的通知。

10:35时(不知道算不算快),阿里云工程师完成了网络切流调度

10:42时,所有受影响的产品都已恢复正常。

据不可靠猜测,本次事故大概率是开猿节流(裁员裁到大动脉)的后遗症(手动狗头)。

B站和小红书的总部都在上海,同一可用区内实例之间的网络延时最小,其用户访问速度也最快,就选择了阿里云的上海可用区。然后上海可用区N网络出现异常,导致了他们崩掉。

B站这次把错误码直接展示给用户的做法就很不好,如图:

不过B站和小红书在平台出现故障的时候,都有服务熔断降级的情况。这也从侧面再次印证了,我们在架构设计的时候,一定要考虑提高可用性的同时也要具备容灾能力。

最后,这种高等级的事故一般都会有事故复盘,详细的事故原因我们耐心等待官方的事故复盘报告