如何负责一个系统的稳定性

黄金指标

  1. 延迟: 接口的RT。P99
  2. 流量: 接口能承受的最大QPS,TPS
  3. 错误: 单位时间内,报错个数,业务失败个数
  4. 饱和度: cpu使用率,内存使用率,数据库连接池,线程池,磁盘等使用率

如果让你接手一个新系统,如何保证稳定性

  1. 明确服务责任边界: 这个服务是干嘛的
  2. 摸清家底: 梳理服务所有出口与入口,都有谁在调用我。我又在调用谁,对谁有依赖。每个接口的重要性进行排序,每个接口的黄金指标和上下游对齐(包括qps,rt等等)
  3. 点亮监控: 基于第二步结果,对每个接口的不同指标要求加上监控。
  4. 演练与压测:
相关推荐
qq_5895681012 分钟前
java学习笔记,包括idea快捷键
java·ide·intellij-idea
小怪吴吴1 小时前
idea 开发Android
android·java·intellij-idea
嘻嘻哈哈樱桃1 小时前
牛客经典101题题解集--动态规划
java·数据结构·python·算法·职场和发展·动态规划
一次旅行1 小时前
IDEA安装CC GUI新手指南
java·ide·intellij-idea
超梦dasgg1 小时前
Spring AI 智能航空助手项目实战
java·人工智能·后端·spring·ai编程
counting money2 小时前
Spring框架基础(配置篇)
java·后端·spring
秋93 小时前
OceanBase与GreatSQL在Java应用中的性能调优方法有哪些?
java·开发语言·oceanbase
今天又在写代码3 小时前
并发问题解决
java·开发语言·数据库
老王以为3 小时前
前端视角下的 Java
java·javascript·程序员