如何负责一个系统的稳定性

黄金指标

  1. 延迟: 接口的RT。P99
  2. 流量: 接口能承受的最大QPS,TPS
  3. 错误: 单位时间内,报错个数,业务失败个数
  4. 饱和度: cpu使用率,内存使用率,数据库连接池,线程池,磁盘等使用率

如果让你接手一个新系统,如何保证稳定性

  1. 明确服务责任边界: 这个服务是干嘛的
  2. 摸清家底: 梳理服务所有出口与入口,都有谁在调用我。我又在调用谁,对谁有依赖。每个接口的重要性进行排序,每个接口的黄金指标和上下游对齐(包括qps,rt等等)
  3. 点亮监控: 基于第二步结果,对每个接口的不同指标要求加上监控。
  4. 演练与压测:
相关推荐
xieliyu.3 小时前
Java算法精讲:双指针(三)
java·开发语言·算法
明夜之约3 小时前
Spring Boot 自动装配源码
java·spring boot·后端
Leaton Lee3 小时前
Spring Boot分层架构详解:从Controller到Service再到Mapper的完整流程
java·spring boot·后端·架构
Jinkxs3 小时前
Resilience4j- 与 Spring Boot 快速集成:自动配置与基础注解使用
java·spring boot·后端
辣机小司3 小时前
【踩坑记录:Spring Boot 配置文件读取值不一致?警惕 YAML 的“八进制陷阱”与 SnakeYAML 版本之谜】
java·spring boot·后端·yaml·踩坑记录
fangdengfu1234 小时前
ES分析系统各个服务日志占用量
java·前端·elasticsearch
云烟成雨TD5 小时前
Spring AI 1.x 系列【51】可观测性技术选型
java·人工智能·spring
星越华夏5 小时前
ESP32-CAM图像传输项目说明文档
java·后端·struts·esp32
Jinkxs5 小时前
Java 跨域14-Java 与区块链(Hyperledger)集成
java·开发语言·区块链
晨曦中的暮雨6 小时前
Golang速通(Javaer版)
java·开发语言·后端·golang