降本增笑，阿里云的数据库管控又崩了

最近阿里巴巴为大家枯燥的生活带来了不少谈资，大家笑称为"降本增笑"。

先是10月23日语雀接近8个小时的宕机，然后是11月12日阿里云底层授权模块接近3个小时的服务不可用，今天（11月27日）又是接近2个小时的数据库管控故障，每两周一次故障，偶尔的一次还能说的过去，这么频繁的故障，发故障公告的同学可能也觉得头皮发麻了！

伴随着阿里云的频繁报障，大家对阿里云的信任进一步降低，之前卖力宣传的自主云难道就是这个水平。我这个10年的阿里云用户，也不免心生疑虑，阿里云要不行了吗？要不要把之前自有的Redis集群再搞起来？要不要试试多云部署？

最近几年有一个下云的技术潮流，核心思想就是云服务太TM贵了，下云之后节省的不是一点半点。当然下云也有下云的问题，硬件和软件都要搞起来，得能自己玩的转，不过现在有K8S，一般企业用这个就可以快速搭建起自己的私有云，如果用这个还有问题的话，绝对不是一般企业，技术牛人招过来基本也能解决。

不过这也不是说所有的企业都适合下云，新成立的企业，云成本比较低的企业，选择公有云还是一个比较靠谱的方案，对于新企业最重要的是把业务跑通，获取稳定的盈利，然后才是降本增效，考虑要不要搞个私有云，而不是一上来就铺个大摊子。

对于使用私有云的企业，很多也不是完全放弃了公有云，而是混合使用，站在成本的角度，企业往往会有一些突发的计算需求，公有云能提供更灵活的计算资源，时常用一下还是挺不错的。

这两次出现故障的方面都在管控程序，服务器实例，数据库实例、存储实例运行的还比较正常，所以如果你使用公有云，又想不被它牵制的太多，只使用最基础的服务可能也是一种比较好的策略，比如只使用云服务器，其它数据库、文件存储都采用成熟的开源方案。当然这需要具备一定的技术维护能力。

如何使用公有云，大家要三思而后行。

原因

对于阿里频繁技术故障背后的原因，有网友归结为阿里的大规模裁员，有网友根据阿里的财报数据估算，近9个月内，阿里减少了1.5万人。结合互联网行业广泛存在的35岁现象，很多人认为大量有着丰富经验的程序员都被裁员毕业了，剩下的都是一些经验不怎么足够的小年轻，所以故障就不可避免的出现了。裁员本为降本，却一不小心让大家看了笑话，此所谓降本增笑。

还有网友们对阿里文化的吐槽，高P员工热衷于搞一些概念PPT、PUA下属，所有工作都扔给下级能力不怎么强的低P员工，不了解底层和实现，出了问题就杀两个程序员祭天。

以上大概就是大家认为的阿里云频繁出现故障的原因。但真的是这样吗？

咱们先看下裁员问题。阿里虽然裁掉了很多人，但是也没有超过10%，一个10人的团队，怎么也得有两三个技术比较牛的大佬吧，所以不至于没人顶得上。再说如果真的缺少某方面的技术能力，阿里应该还是能通过招聘解决的。

再看文化的事，这个就很难说了，文化确实能影响一个公司的成败。

如果管理者每天醉心于新思路、新概念，只关注上线进度，开发人员可能就会在各种deadline之间疲于奔命，让他们能吃透业务、搞清楚各种概念之间的关系，可以说是痴人说梦，有时他们甚至会舍弃一些技术指标，因为他们想的可能是赶紧把迭代完成，千万别影响了个人和团队绩效，哪有时间认真思考技术决策，程序就可能越写越乱，相互冲突，相互耦合，难以维护，容易出问题，而且出了问题不好解决，当这个情况累计到一定的程度，问题就开始猛烈而频繁地爆发出来了。

技术的问题自然可以解决，只是市场和用户留给阿里云的时间还有多少？

如果真的是管理或者文化上的问题，阿里云有没有自我革新的力量？

关注微/信/公/众\号萤火架构，提升技术不迷路！