阿里云11月12日官方故障报告来了

影响范围

  1. OSS、OTS、SLS、MNS 等产品的部分服务受到影响,大部分产品如 ECS、RDS、网络等运行不受影响。
  2. 云产品控制台、管控 API 等功能受到影响。

时间

2023年11月12日17:39~19.20,故障时间为 1 小时 41 分。

问题概况

2023 年 11月 12 日 17:39 起,阿里云云产品控制台访问及管控 API调用出现异常、部分云产品服务访问异常,工程师排查故障原因与访问密钥服务 (AK)异常有关。工程师修订白名单版本后,采取分批重启 AK 服务的措施,于 18:35 开始陆续恢复,19:20 绝大部分 Region 产品控制台和管控 API 恢复。

处理过程

  • 17:39:阿里云云产品控制台访问及管控 API 调用出现异常。
  • 17:50:工程师确认故障是 AK 服务异常导致,影响云产品控制台、管控 API 调用异常,以及依赖 AK 服务的云产品服务运行异常。
  • 18:01:工程师定位到根因。
  • 18:07:开始执行恢复措施,包括修订白名单版本、重启 AK 服务。
  • 18:35:杭州等 Region 开始恢复正常。
  • 19:20:绝大部分 Region 的云产品控制台和管控 API 调用恢复正常。

原因

访问密钥服务 (AK)在读取白名单数据时出现读取异常,因处理读取异常的代码存在逻辑缺陷,生成了一份不完整白名单,导致不在此白名单中的有效请求失败,影响云产品控制台及管控 API 服务出现异常,同时部分依赖 AK 服务的产品因不完整的白名单出现部分服务运行异常。

改进措施

  1. 增加 AK 服务白名单生成结果的校验及告警拦截能力。
  2. 增加 AK 服务白名单更新的灰度验证逻辑,提前发现异常。
  3. 增加 AK 服务白名单的快速恢复能力。
  4. 加强云产品侧的联动恢复能力。

下一步阿里云将在此次故障复盘和整改措施基础上,继续深入做好风险隐患排查工作,举一反三,梳理行程问题清单逐项整改。

相关推荐
mseaspring2 小时前
一款用于监控跨多台主机 Docker 容器的实时终端
运维·docker·容器
FreeCultureBoy2 小时前
用 phpbrew 管理 php 环境:从安装到多版本切换
后端·php
NineData2 小时前
NineData 亮相香港国际创科展 InnoEX 2026,以 AI 加速布局全球市场
运维·数据库·人工智能·ninedata·新闻资讯·玖章算术
FreeCultureBoy2 小时前
用 jenv 管理 Java 环境:从安装 JDK 到多版本切换
后端
IT_陈寒2 小时前
Vite的热更新突然失效,原来是因为这个配置
前端·人工智能·后端
考虑考虑2 小时前
SQL语句中的order by可能造成时间重复
数据库·后端·mysql
ZC跨境爬虫3 小时前
3D 地球卫星轨道可视化平台开发 Day8(分步渲染200颗卫星+ 前端分页控制)
前端·python·3d·重构·html
竹林8183 小时前
RainbowKit快速集成多链钱包连接,我如何从“连不上”到“丝滑切换”
前端·javascript
笨笨狗吞噬者3 小时前
Opus 4.7 使用体验
前端·ai编程
RisunJan3 小时前
Linux命令-ngrep(方便的数据包匹配和显示工具)
linux·运维·服务器