技术栈

事件墙

SRETalk
4 小时前
故障定位·事件墙
事件墙为什么重要:根因定位经常不是查指标,而是找到“刚才变了什么”很多事故刚开始时,看起来都是指标问题。接口错误率升高,P99 延迟变大,订单量下降,Redis 连接数打满,Kubernetes Pod 重启,数据库慢查询增多。值班人沿着指标、日志、Trace 查下去,当然能看到很多异常证据,但真正推动根因判断的,经常不是“哪个指标异常”,而是“异常前后发生了什么变化”。
我是有底线的