滴滴P0级故障背后：互联网公司是如何分级处理线上事故的？

大家好，我是G探险者！

像滴滴、阿里、腾讯、华为、字节等大型互联网公司都会对线上故障（事故）进行分级管理，以便快速响应、统一调度、追责复盘。

下面我给你系统性地介绍一下------常见的互联网公司故障分级标准（P0~P4），并结合滴滴、阿里等企业的实践来说明：

🚨 一、故障分级的总体目标

通过分级来 量化故障影响范围与严重程度，从而决定响应等级、通知机制、处理时限与复盘流程。

一般采用的分级体系如下：

等级	典型名称	严重程度	典型响应要求	影响范围
P0	特级故障 / 灾难级故障	🔥🔥🔥🔥🔥	立即全员响应（7x24小时），高层汇报，最高优先级抢修	核心业务全面不可用、用户大面积中断
P1	一级故障 / 严重故障	🔥🔥🔥🔥	分分钟级响应，部门总监级跟进	影响核心功能、较多用户受影响
P2	二级故障 / 一般故障	🔥🔥🔥	小范围影响，主要影响部分功能或少数用户	普通应急响应
P3	三级故障 / 次要问题	🔥🔥	用户体验问题或非核心系统异常	按计划修复
P4	四级问题 / 低优先级缺陷	🔥	不影响业务，可待下个版本修复	无需紧急处理

🚨 一般被称为 "全网级事故"、"平台级灾难"。

典型特征：

响应要求：

比如滴滴的P0事件：

2023年一次P0级事故：由于配置错误导致订单系统核心链路不可用，全国范围内无法下单，持续约30分钟，影响数千万用户。

典型特征：

响应要求：

典型特征：

响应要求：

典型特征：

响应要求：

典型特征：

响应要求：

等级	响应时效	通知范围	是否复盘	是否需高层通报
P0	5分钟内响应，1小时内初步恢复	全公司及管理层	✅ 必须复盘	✅
P1	10分钟内响应，2小时内恢复	相关业务部门、SRE	✅ 必须复盘	✅
P2	30分钟内响应，1天内修复	业务线内部	✅ 可选复盘	❌
P3	1天内响应	模块负责人	❌	❌
P4	无需应急	团队内部	❌	❌

大厂一般都有配套机制支持快速分级响应：