20250116 支付宝出现重大事故 有感

事故

20250116 下午支付宝直接冲上微博热搜榜首,原因是在2025年01月16日14:40-14:45期间出现大量支付显示"政府补贴"减免字样。

最开始我是在小红书上看到的相关内容,只是看到这个图片,心想这肯定是小红书暗广,撇了一眼就划过了。当"支付宝出现重大BUG"出现在微博头条时,才确信此事为真!很大多数的人想法一样,咬牙拍大腿,心里千万野马飘过,真的错过1个亿!

作为一名互联网从业者最想了解或最想聊的3件事情展开:事故影响面、事故的原因、如何避免

事故的影响面

首先事情已经上新闻头条了,全国甚至全球人民都知道 支付宝在"撒币"。阿里作为国内互联网大厂的一员、支付宝是一款金融级的产品,为何出现如此离谱的事故?!国民对支付宝产品是否抱有信心?对阿里旗下的产品是否抱有信心?金融监管部门对支付宝的态度会是如何?后续阿里的生意是否好做?都有待商榷!

其次5分钟大规模的支付往来和黑产盗刷,20%的金额损失是比较庞大的数字?据maimai小道消息大概8位数。

事故的原因

那天下班的路上也在跟女朋友在探讨这件事情;这个到底是谁的责任?研发、测试、还是?支付宝是否会追回涉及到款项?如果追回的话如何追回?

17号凌晨支付宝官微澄清了几个事实

事故根因是某个常规营销活动后台配错了营销模板,把优惠额度和优惠金类型写错了

支付宝也表示了不会追回相关款项!

如何避免

本人不是蚂蚁的员工 且支付宝case study 暂时还没有,仅作为众多互联网从业者中一员 质量保障这个角色来对这个事故发表我个人的想法,与各位同仁共勉。

产品研发

  1. 功能设计要非常严肃,国补优惠券为什么任何人都有?没有地域或者数量限制?我映像里京东国补优惠券那领取还是挺复杂的,要进相关政府的小程序,获取优惠券口令,复制口令,返回到京东才能获取到国补优惠券。
  2. 需要客户端、前端、后端、测试严格评审对齐,比如个人之间的转账为什么可以用国补优惠券?哪些支付类型不能使用国补优惠券只要有一方在产品开发或测试阶段进行拦截,就不会造成如此重大的事故。

质量保障

  1. 测试需要覆盖这种核心场景(比如有优惠券下不同类型支付的表现、使用国补进行支付后优惠券数量是否发生变化)且实现自动化,保障回归、冒烟测试的有效性和效率。
  2. 功能或配置上线需要及时进行冒烟测试。

上线运维

  1. 上线需要建立严格的审批流程,对应的审批人员需要严格review。
  2. 上线需要灰度进行,白名单/黑名单、服务、节点灰度
    白名单/黑名单灰度:比如可以先配置冒烟测试账号可用。冒烟测试完备后,再全集群开启。
    服务、节点灰度:禁止全集群同时配置,需要灰度上线尽量避免损失,上线顺序按集群风险低到高进行,每个上线节点需要配合冒烟测试。集群风险有很多评判标准,比如以集群节点数作为风险点评判标准,上线顺序就以小集群单节点、小集群多节点、小集群、大集群单节点、大集群多节点、大集群。如果以集群有重要用户为评判标准,就要适当上线顺序。

风控

作为最后兜底的手段,尽量避免大量损失,比如可以设定各种维度(账号、IP、地区、整体等等)优惠额度,优惠总数的监控预警、一键回滚等。

有感

在线支付成为普适性的今天,带来的是对金融级基础软件或硬件的思考,是否百分百可靠或稳定?

这两天跟朋友也在聊这个话题,要是我们钱存在支付宝或微信里,每天进行小额消费,哪天真的余额少些,根本没法感知;因为基本没有人每天人工对账。