黄金指标
- 延迟: 接口的RT。P99
- 流量: 接口能承受的最大QPS,TPS
- 错误: 单位时间内,报错个数,业务失败个数
- 饱和度: cpu使用率,内存使用率,数据库连接池,线程池,磁盘等使用率
如果让你接手一个新系统,如何保证稳定性
- 明确服务责任边界: 这个服务是干嘛的
- 摸清家底: 梳理服务所有出口与入口,都有谁在调用我。我又在调用谁,对谁有依赖。每个接口的重要性进行排序,每个接口的黄金指标和上下游对齐(包括qps,rt等等)
- 点亮监控: 基于第二步结果,对每个接口的不同指标要求加上监控。
- 演练与压测: