语雀故障与反思,顺便再领半年会员!

23 日语雀的故障相信大部分人都已经知道了,官方发布的公告是这样的:

10 月 23 日语雀出现重大服务故障,且持续 7 个多小时才完全恢复,给用户使用造成极大不便,对此我们深感抱歉。经过复盘,我们在这里向大家进一步说明故障原因、修复过程和改进措施。

故障原因及处理过程:

10 月 23 日下午,服务语雀的数据存储运维团队在进行升级操作时,由于新的运维升级工具 bug,导致华东地区生产环境存储服务器被误下线。受其影响,语雀数据服务发生严重故障,造成大面积的服务中断。为了尽快恢复服务,我们和数据存储运维团队全力进行数据恢复工作,但受限于恢复方案、数据量级等因素,整体用时较长。具体过程如下:

14:07 数据存储运维团队收到监控系统报警,定位到原因是存储在升级中因新的运维工具 bug 导致节点机器下线;14:15 联系硬件团队尝试将下线机器重新上线;15:00 确认因存储系统使用的机器类别较老,无法直接操作上线,立即调整恢复方案为从备份系统中恢复存储数据。15:10 开始新建存储系统,从备份中开始恢复数据,由于语雀数据量庞大,此过程历时较长,19 点完成数据恢复;同时为保障数据完整性,在完成恢复后,用时 2 个小时进行数据校验;21 点存储系统通过完整性校验,开始和语雀团队联调,最终在 22 点恢复语雀全部服务。用户所有数据均未丢失。

改进措施:

1、升级硬件版本和机型,实现离线后的快速上线。该措施在本次故障修复中已完成; 2、运维团队加强运维工具的质量保障与测试,杜绝此类运维 bug 再次发生; 3、缩小运维动作灰度范围,增加灰度时间,提前发现 bug; 4、从架构和高可用层面改进服务,为语雀增加存储系统的异地灾备。

赔偿方案:

为了表达我们的歉意,我们将向所有受到故障影响的用户提供如下赔偿方案: 针对语雀个人用户,我们赠送 6 个月的会员服务。操作流程:进入工作台「账户设置」,点击左侧「会员信息」,在会员信息页面点击「立即领取」,即可获得赠送服务。

先领会员

1.点击"账户设置"

2.点击"会员信息"

点击"会员信息"之后点击"立即领取"

3.领取成功

操作很简单,也很丝滑,半年语雀会员就到手了。

问题反思

  1. 一定要有异地容灾。
  2. 一定要做好规范操作培训工作。
  3. 一定要有线上重大操作的完整审计流程。
  4. 定期测试和演练。

小结

作为一个千万级的产品,一定要做好容灾处理。小事故最好没有,大事故坚决不能有。用户对产品的"信任"是最重要的,一旦被贴上"不靠谱"的标签,那之前的一切就都毁了。

通过这件事也给我们普通人提个醒,要做好个人的信息备份和容灾,起码要多平台定期备份,这样出问题时,才不会太被动。

相关推荐
a努力。10 分钟前
小红书Java面试被问:ThreadLocal 内存泄漏问题及解决方案
java·jvm·后端·算法·面试·架构
serendipity_hky15 分钟前
【go语言 | 第4篇】goroutine模型和调度策略
后端·性能优化·golang
狂炫冰美式25 分钟前
《预言市场进化论:从罗马斗兽场,到 Polymarket 的 K 线图》
前端·后端
hahjee40 分钟前
Go编写的ANSI终端颜色和样式控制库在OpenHarmony PC上的完整适配实战
开发语言·后端·鸿蒙
小火锅啊1 小时前
java实现生成PDF文件
后端
老华带你飞1 小时前
健身房预约|基于springboot 健身房预约小程序系统(源码+数据库+文档)
java·数据库·vue.js·spring boot·后端·小程序
paopaokaka_luck1 小时前
基于SpringBoot+Uniapp的自习室预约小程序(腾讯地图API、Echarts图形化分析、二维码识别)
vue.js·spring boot·后端·spring·echarts
树洞RoBot1 小时前
Spring框架深度解析:从核心原理到企业级实战
后端
..过云雨1 小时前
15-2.【Linux系统编程】进程信号 - 信号保存(信号处理流程的三种状态:未决、阻塞、递达,信号保存由未决表完成、sigset_t信号集类型及相关函数)
linux·c++·后端·信号处理
喵个咪1 小时前
开箱即用的 GoWind Admin|风行,企业级前后端一体中后台框架:Makefile 在后端开发中的应用与 Windows 环境配置
后端·go