滴滴崩溃12小时，有哪些思考？

$💥 简介$
$🦠 事故如何$
$🍄 事故分析$
- $🍋 降本增效$
- $🥭 底层问题$
$🍻 最后聊点啥$

💥 简介

11月28日上午10:30左右，据南方+记者在广州实测滴滴出行App后发现，目前滴滴出行 包括网约车和共享单车等业务已经恢复正常，而此次全面的功能瘫痪持续了接近12小时 ，也是近年来滴滴出行瘫痪时间最长的一次故障。据滴滴出行此前公布的2023年第三季度财报显示，单季度中国出行业务总交易额为725亿元，日均单量达到3130万单，而以此次"崩了"的故障时长计算，估计将会让滴滴损失过千万订单 和超4亿的交易额。

🦠 事故如何

该次事件，从很多司机的反馈看，此次滴滴平台在接单、定位、计费等环节上都出现了问题。有网约车司机表示，刚好App崩溃时开始在接单，从11月27晚上10点20分开始什么都做不了，客服电话也进不了线。目前恢复了少部分功能，但不能正常使用，很多错单乱单，还出现了多位司机接同一单的现象。经过一夜维修，滴滴司机表示目前仍然没有恢复。目前无法使用，所以司机都在说，接到订单时有听单声音，但无显示，到达乘客位置又找不到乘客，接到乘客又无法结束订单等一大推问题。甚至到了11月28号早上，尝试了一下打车，然后遇到什么情况，好像是不崩溃了，但发现还是有点问题。输入目的地打车，司机成功接单后，看到一眼车牌号，再刷新就异常及重试了，好在凭着记忆成功上对车；上车问了下司机师傅，说他的端口只恢复了接单界面，其他都没有恢复，好在能接单能导航。12点之前，滴滴的系统依然混乱。甚至于，司机说相关的小桔充电桩目前依然无法充电。

滴滴的程序员27号晚上去干什么了？一晚上都修不完这些 bug？对于大厂的高级研发，架构师来说，线上系统发布出现问题时的回滚流程应该是一套很成熟的体系，但是万万没想到这个事故竟然能持续一晚上还没结束。那么这里面到底出了哪些问题？作为一个互联网从业者，给大家分析一下这里面可能存在的原因。

🍄 事故分析

🍋 降本增效

一个词概括 2023 年的互联网行情就是 "降本增效" 。疫情三年可以说是导致本就难做的实体行业是难上加难，但确给互联网行业带来了一大波用户增长。可谁曾想到来都 2023 年初，互联网行业可以说是寸草不生，直接进入存量内卷时代，各家都不在出新产品，开始巩固护城河。记得三年前阿里的市值巅峰是 8000 亿跌倒现在不到 2000 亿，想想这里面市值缩水了 4 倍，想想 8000 亿市值招了多少人，现在不到 2000 亿，那又需要裁多少人嘞？年初阿里裁撤 15000 人的消息还历历在目。虽然这里面有全球大环境、国家政策以及市场竞争多众多因素导致。但是裁员时，资本又不会管你一个普通底层干活的技术员工干了多少年，技术上做出了多少贡献，他只会看优化后的财务报表有多么好看。回顾滴滴的发展历程，其在2021年6月30日登陆美国纳斯达克时估值高达800亿美元。但随后，2021年7月4日国家网信办发布公告指出滴滴出行APP存在严重违法违规收集使用个人信息问题，并要求应用商店下架该APP。滴滴也宣布暂停新用户注册。2022年7月21日，滴滴被处以罚款80.26亿人民币。直至2023年1月16日，滴滴才宣布整改完毕，恢复新用户注册，这一整个事件才告一段落。这表明滴滴为自己的违法行为付出了代价，且裁撤了多少员工我们无从得知。由此可见，滴滴打车系统的稳定性受到了影响。眼下，降本增效是互联网企业的重要课题。然而，大多数互联网公司采取的降本措施是裁掉底层干活的人，而留下一堆中层领导；增效的方法是要求一人干两个人的事情。但实际上，这种做法会带来一些隐患。例如，一旦有新的问题出现，而底层干活的员工被裁掉了，留下来的员工由于不熟悉其他模块的开发情况，难以解决问题，且上级领导也无法给出明确的解决方案。这或许会导致类似滴滴崩溃的事故的发生。

🥭 底层问题

还记得语雀上次事故，事故原因就是运维工具升级报错导致。滴滴这一波会不会也是这个原因嘞？ 分析下滴滴以往的案例

2015年10月，滴滴出行就曾出现出现崩溃3个多小时，无法叫车的情况，彼时滴滴解释称深圳部分服务器遭遇技术故障，"目前已经定位故障原因，我们的工程师正在紧急修复，系统正在逐步恢复正常。" 2016年7月，滴滴打车系统整个崩溃，司机与乘客均无法登陆2018年11月，滴滴版本更新时，滴滴司机车辆信息全部被清理，无法出车。2019年10月，滴滴再次崩溃，无法显示路线。滴滴表示，是系统更新时出现了故障，导致导航出现问题。 2020年9月，滴滴再现"最难打车日"，多地用户使用滴滴出行打车时，出现网络故障的提示滴滴后续仅称，技术故障已修复。 2021年2月，滴滴又一次崩了，出现打不了车、发布的行程也看不见、司机接到人后开启不了订单、司机无法结束订单等多种异常情况。

本次事故了解到的情况是滴滴的内网都挂了，那肯定是公司底层核心出了问题。第一批挂了以后理论上应该去做切流，假如说预案平台也挂了呢？那就得先恢复预案平台；而且滴滴的核心交易链路应该也挂了，b端业务复杂，需要的依赖很多，内部可能是雪崩式的塌方，比如a服务依赖b服务启动，b服务依赖c服务启动，c服务依赖a服务生效，层层叠叠的，导致一次性拉起困难。结果滴滴内网和公司IM也挂了，好家伙，现在研发人都找不到，听说是微信拉群解决的（真离谱凌晨发了通告，应该是拉起恢复正常了，但是不稳定，结果早高峰流量一上来，又把平台打崩了，这下滴滴自己的员工都没办法上班了，导致中午12点还没止损（离谱+1稳定性这个东西就是，不爆炸的时候感觉什么都不重要，爆炸的时候1-2个组根本挽救不回来，年年搞演练，年年出故障，干打雷不下雨，走个过场，结果线上真倒霉了。这不会是最后一次，底层的雷多着呢，现在就看击鼓传花下一场是谁家的故障了。

🍻 最后聊点啥

前有阿里，后有滴滴两个都是今年国内互联网的重大事故，对社会面影响很大阿里是云服务，凡是跟阿里云沾边的都噶了，而且噶的时间非常久，比曾经腾讯QQ和百度的故障亭摆时间还要久，属于活久见了。这次滴滴属千步了阿里的后尘，第一波是晚高峰，第二波是早高峰，两波高峰可是全国性的，可不是某一个城市啊各位! 试想，滴滴停摆后，多少人的行程被耽误，对司机、用户、当地市政交通都有不同程度的影响，更别提经济损失了。今年也很怪，过去二十年里，中国互联网几乎没有出现过这么严重的停摆事故。以前腾讯百度主站宕个机也不过如此，至少核心服务能正常运转，不会造成特别大的损失。但是阿里云滴滴这些就像机房被拉闻一样，一停就数小时，而且是连锅端，时间之久，影响之大，史无前例。