滴滴崩溃12小时,有哪些思考?

  • [💥 简介]
  • [🦠 事故如何]
  • [🍄 事故分析]
    • [🍋 降本增效]
    • [🥭 底层问题]
  • [🍻 最后聊点啥]

💥 简介

11月28日上午10:30左右,据南方+记者在广州实测滴滴出行App后发现,目前滴滴出行 包括网约车和共享单车等业务已经恢复正常,而此次全面的功能瘫痪持续了接近12小时 ,也是近年来滴滴出行瘫痪时间最长的一次故障。 据滴滴出行此前公布的2023年第三季度财报显示,单季度中国出行业务总交易额为725亿元,日均单量达到3130万单,而以此次"崩了"的故障时长计算,估计将会让滴滴损失过千万订单 和超4亿的交易额。

🦠 事故如何

该次事件,从很多司机的反馈看,此次滴滴平台在接单、定位、计费等环节上都出现了问题。有网约车司机表示,刚好App崩溃时开始在接单,从11月27晚上10点20分开始什么都做不了,客服电话也进不了线。目前恢复了少部分功能,但不能正常使用,很多错单乱单,还出现了多位司机接同一单的现象。经过一夜维修,滴滴司机表示目前仍然没有恢复。目前无法使用,所以司机都在说,接到订单时有听单声音,但无显示,到达乘客位置又找不到乘客,接到乘客又无法结束订单等一大推问题。甚至到了11月28号早上,尝试了一下打车,然后遇到什么情况,好像是不崩溃了,但发现还是有点问题。输入目的地打车,司机成功接单后,看到一眼车牌号,再刷新就异常及重试了,好在凭着记忆成功上对车;上车问了下司机师傅,说他的端口只恢复了接单界面,其他都没有恢复,好在能接单能导航。12点之前,滴滴的系统依然混乱。甚至于,司机说相关的小桔充电桩目前依然无法充电。

滴滴的程序员27号晚上去干什么了?一晚上都修不完这些 bug?对于大厂的高级研发,架构师来说,线上系统发布出现问题时的回滚流程应该是一套很成熟的体系,但是万万没想到这个事故竟然能持续一晚上还没结束。 那么这里面到底出了哪些问题?作为一个互联网从业者,给大家分析一下这里面可能存在的原因。

🍄 事故分析

🍋 降本增效

一个词概括 2023 年的互联网行情就是 "降本增效" 。疫情三年可以说是导致本就难做的实体行业是难上加难,但确给互联网行业带来了一大波用户增长。可谁曾想到来都 2023 年初,互联网行业可以说是寸草不生,直接进入存量内卷时代,各家都不在出新产品,开始巩固护城河。 记得三年前阿里的市值巅峰是 8000 亿跌倒现在不到 2000 亿,想想这里面市值缩水了 4 倍,想想 8000 亿市值招了多少人,现在不到 2000 亿,那又需要裁多少人嘞?年初阿里裁撤 15000 人的消息还历历在目。虽然这里面有全球大环境、国家政策以及市场竞争多众多因素导致。但是裁员时,资本又不会管你一个普通底层干活的技术员工干了多少年,技术上做出了多少贡献,他只会看优化后的财务报表有多么好看。 回顾滴滴的发展历程,其在2021年6月30日登陆美国纳斯达克时估值高达800亿美元。但随后,2021年7月4日国家网信办发布公告指出滴滴出行APP存在严重违法违规收集使用个人信息问题,并要求应用商店下架该APP。滴滴也宣布暂停新用户注册。2022年7月21日,滴滴被处以罚款80.26亿人民币。直至2023年1月16日,滴滴才宣布整改完毕,恢复新用户注册,这一整个事件才告一段落。这表明滴滴为自己的违法行为付出了代价,且裁撤了多少员工我们无从得知。由此可见,滴滴打车系统的稳定性受到了影响。 眼下,降本增效是互联网企业的重要课题。然而,大多数互联网公司采取的降本措施是裁掉底层干活的人,而留下一堆中层领导;增效的方法是要求一人干两个人的事情。但实际上,这种做法会带来一些隐患。例如,一旦有新的问题出现,而底层干活的员工被裁掉了,留下来的员工由于不熟悉其他模块的开发情况,难以解决问题,且上级领导也无法给出明确的解决方案。这或许会导致类似滴滴崩溃的事故的发生。

🥭 底层问题

还记得语雀上次事故,事故原因就是运维工具升级报错导致。滴滴这一波会不会也是这个原因嘞? 分析下滴滴以往的案例

2015年10月,滴滴出行就曾出现出现崩溃3个多小时,无法叫车的情况,彼时滴滴解释称深圳部分服务器遭遇技术故障,"目前已经定位故障原因,我们的工程师正在紧急修复,系统正在逐步恢复正常。" 2016年7月,滴滴打车系统整个崩溃,司机与乘客均无法登陆2018年11月,滴滴版本更新时,滴滴司机车辆信息全部被清理,无法出车。2019年10月,滴滴再次崩溃,无法显示路线。滴滴表示,是系统更新时出现了故障,导致导航出现问题。 2020年9月,滴滴再现"最难打车日",多地用户使用滴滴出行打车时,出现网络故障的提示滴滴后续仅称,技术故障已修复。 2021年2月,滴滴又一次崩了,出现打不了车、发布的行程也看不见、司机接到人后开启不了订单、司机无法结束订单等多种异常情况。

本次事故了解到的情况是滴滴的内网都挂了,那肯定是公司底层核心出了问题。第一批挂了以后理论上应该去做切流,假如说预案平台也挂了呢?那就得先恢复预案平台;而且滴滴的核心交易链路应该也挂了,b端业务复杂,需要的依赖很多,内部可能是雪崩式的塌方,比如a服务依赖b服务启动,b服务依赖c服务启动,c服务依赖a服务生效,层层叠叠的,导致一次性拉起困难。结果滴滴内网和公司IM也挂了,好家伙,现在研发人都找不到,听说是微信拉群解决的(真离谱凌晨发了通告,应该是拉起恢复正常了,但是不稳定,结果早高峰流量一上来,又把平台打崩了,这下滴滴自己的员工都没办法上班了,导致中午12点还没止损(离谱+1稳定性这个东西就是,不爆炸的时候感觉什么都不重要,爆炸的时候1-2个组根本挽救不回来,年年搞演练,年年出故障,干打雷不下雨,走个过场,结果线上真倒霉了。这不会是最后一次,底层的雷多着呢,现在就看击鼓传花下一场是谁家的故障了。

🍻 最后聊点啥

前有阿里,后有滴滴 两个都是今年国内互联网的重大事故,对社会面影响很大 阿里是云服务,凡是跟阿里云沾边的都噶了,而且噶的时间非常久,比曾经腾讯QQ和百度的故障亭摆时间还要久,属于活久见了。 这次滴滴属千步了阿里的后尘,第一波是晚高峰,第二波是早高峰,两波高峰可是全国性的,可不是某一个城市啊各位! 试想,滴滴停摆后,多少人的行程被耽误,对司机、用户、当地市政交通都有不同程度的影响,更别提经济损失了。 今年也很怪,过去二十年里,中国互联网几乎没有出现过这么严重的停摆事故。以前腾讯百度主站宕个机也不过如此,至少核心服务能正常运转,不会造成特别大的损失。但是阿里云滴滴这些就像机房被拉闻一样,一停就数小时,而且是连锅端,时间之久,影响之大,史无前例。

相关推荐
Smilejudy22 分钟前
三行五行的 SQL 只存在于教科书和培训班
后端·github
斯普信专业组25 分钟前
RabbitMQ原理架构解析:消息传递的核心机制
架构·rabbitmq·ruby
爱上语文26 分钟前
Http 请求协议
网络·后端·网络协议·http
贝克街的天才36 分钟前
据说在代码里拼接查询条件不够优雅?Magic-1.0.2 发布
java·后端·开源
monkey_meng44 分钟前
【Rust Iterator 之 fold,map,filter,for_each】
开发语言·后端·rust
运维&陈同学1 小时前
【kafka01】消息队列与微服务之Kafka详解
运维·分布式·后端·微服务·云原生·容器·架构·kafka
Moment1 小时前
毕业半年,终于拥有了两个近 500 star 的开源项目了 🤭🤭🤭
前端·后端·开源
Leo.yuan1 小时前
101页PDF | 德勤_XX集团信息化顶层规划设计信息化总体解决方案(限免下载)
信息可视化·架构·数字化转型·智能工厂
计算机毕设指导61 小时前
基于SpringBoot共享汽车管理系统【附源码】
java·spring boot·后端·mysql·spring·汽车·intellij idea
Allen Bright2 小时前
Redis主从架构
数据库·redis·架构