如何负责一个系统的稳定性

黄金指标

  1. 延迟: 接口的RT。P99
  2. 流量: 接口能承受的最大QPS,TPS
  3. 错误: 单位时间内,报错个数,业务失败个数
  4. 饱和度: cpu使用率,内存使用率,数据库连接池,线程池,磁盘等使用率

如果让你接手一个新系统,如何保证稳定性

  1. 明确服务责任边界: 这个服务是干嘛的
  2. 摸清家底: 梳理服务所有出口与入口,都有谁在调用我。我又在调用谁,对谁有依赖。每个接口的重要性进行排序,每个接口的黄金指标和上下游对齐(包括qps,rt等等)
  3. 点亮监控: 基于第二步结果,对每个接口的不同指标要求加上监控。
  4. 演练与压测:
相关推荐
XS0301066 小时前
并发编程二
java·开发语言
雪度娃娃6 小时前
转向现代C++——优先选用限定作用域的枚举型别,而非不限作用域的枚举型别
java·jvm·c++
不是光头 强6 小时前
Java 后端实战进阶:从踩坑到架构的系统化笔记
java·笔记·架构
ID_180079054736 小时前
企业级淘宝评论 API最简说明,JSON 返回示例
java·服务器·前端
Plan-C-7 小时前
二叉树的遍历
java·数据结构·算法
历程里程碑7 小时前
54 深入解析poll多路复用技术
java·linux·服务器·开发语言·前端·数据结构·c++
无限进步_7 小时前
【C++】可变参数模板与emplace系列
java·c++·算法
逐光老顽童7 小时前
Java 内存模型深度解析与 JVM 调优实战指南
java·架构
写了20年代码的老程序员8 小时前
Excel 导入导出为什么总是把后端逼成字段搬运工
java·excel
ChoSeitaku8 小时前
10.枚举_Record_密封类_debug_API文档_Object类_lombok_Junit
java·数据库·junit