语雀故障与反思,顺便再领半年会员!

23 日语雀的故障相信大部分人都已经知道了,官方发布的公告是这样的:

10 月 23 日语雀出现重大服务故障,且持续 7 个多小时才完全恢复,给用户使用造成极大不便,对此我们深感抱歉。经过复盘,我们在这里向大家进一步说明故障原因、修复过程和改进措施。

故障原因及处理过程:

10 月 23 日下午,服务语雀的数据存储运维团队在进行升级操作时,由于新的运维升级工具 bug,导致华东地区生产环境存储服务器被误下线。受其影响,语雀数据服务发生严重故障,造成大面积的服务中断。为了尽快恢复服务,我们和数据存储运维团队全力进行数据恢复工作,但受限于恢复方案、数据量级等因素,整体用时较长。具体过程如下:

14:07 数据存储运维团队收到监控系统报警,定位到原因是存储在升级中因新的运维工具 bug 导致节点机器下线;14:15 联系硬件团队尝试将下线机器重新上线;15:00 确认因存储系统使用的机器类别较老,无法直接操作上线,立即调整恢复方案为从备份系统中恢复存储数据。15:10 开始新建存储系统,从备份中开始恢复数据,由于语雀数据量庞大,此过程历时较长,19 点完成数据恢复;同时为保障数据完整性,在完成恢复后,用时 2 个小时进行数据校验;21 点存储系统通过完整性校验,开始和语雀团队联调,最终在 22 点恢复语雀全部服务。用户所有数据均未丢失。

改进措施:

1、升级硬件版本和机型,实现离线后的快速上线。该措施在本次故障修复中已完成; 2、运维团队加强运维工具的质量保障与测试,杜绝此类运维 bug 再次发生; 3、缩小运维动作灰度范围,增加灰度时间,提前发现 bug; 4、从架构和高可用层面改进服务,为语雀增加存储系统的异地灾备。

赔偿方案:

为了表达我们的歉意,我们将向所有受到故障影响的用户提供如下赔偿方案: 针对语雀个人用户,我们赠送 6 个月的会员服务。操作流程:进入工作台「账户设置」,点击左侧「会员信息」,在会员信息页面点击「立即领取」,即可获得赠送服务。

先领会员

1.点击"账户设置"

2.点击"会员信息"

点击"会员信息"之后点击"立即领取"

3.领取成功

操作很简单,也很丝滑,半年语雀会员就到手了。

问题反思

  1. 一定要有异地容灾。
  2. 一定要做好规范操作培训工作。
  3. 一定要有线上重大操作的完整审计流程。
  4. 定期测试和演练。

小结

作为一个千万级的产品,一定要做好容灾处理。小事故最好没有,大事故坚决不能有。用户对产品的"信任"是最重要的,一旦被贴上"不靠谱"的标签,那之前的一切就都毁了。

通过这件事也给我们普通人提个醒,要做好个人的信息备份和容灾,起码要多平台定期备份,这样出问题时,才不会太被动。

相关推荐
GetcharZp6 小时前
玩转 Linux 机器视觉:手把手带你搞定 Ubuntu 下海康工业相机 C++ SDK
后端
星星在线9 小时前
MusicFree:一个「All in One」的个人音乐服务器,让听歌回归简单
前端·后端
IT_陈寒10 小时前
Redis的SETNX并发问题让我加了三天班
前端·人工智能·后端
demo007x11 小时前
Docling 文档转换以及技术架构分析
前端·后端·程序员
保持当下12 小时前
分享一些程序员很棘手但是却又简单的工具
程序员·免费·js·工具
袋鱼不重12 小时前
我的神奇同事,AI 用多了居然写了个 Open In Codex
前端·后端·ai编程
用户83562907805112 小时前
使用 Python 操作 Word 内容控件
后端·python
像我这样帅的人丶你还12 小时前
啥? 前端也要会干Java?🛵🛵🛵
后端
Hommy8812 小时前
【剪映小助手】添加贴纸接口(Add Sticker)
后端·github·剪映小助手·视频剪辑自动化·剪映api