如何负责一个系统的稳定性

黄金指标

  1. 延迟: 接口的RT。P99
  2. 流量: 接口能承受的最大QPS,TPS
  3. 错误: 单位时间内,报错个数,业务失败个数
  4. 饱和度: cpu使用率,内存使用率,数据库连接池,线程池,磁盘等使用率

如果让你接手一个新系统,如何保证稳定性

  1. 明确服务责任边界: 这个服务是干嘛的
  2. 摸清家底: 梳理服务所有出口与入口,都有谁在调用我。我又在调用谁,对谁有依赖。每个接口的重要性进行排序,每个接口的黄金指标和上下游对齐(包括qps,rt等等)
  3. 点亮监控: 基于第二步结果,对每个接口的不同指标要求加上监控。
  4. 演练与压测:
相关推荐
亦暖筑序33 分钟前
Java 8老系统AI Workflow实战:把一次性AI对话升级成可恢复工作流
java·后端
敲代码的彭于晏1 小时前
Bean 生命周期完全图解:前端同学也能看懂的 Spring 核心机制
java·前端·后端
plainGeekDev2 小时前
ButterKnife → ViewBinding
android·java·kotlin
像我这样帅的人丶你还18 小时前
Java 后端详解(四):分页与搜索
java·javascript·后端
她的男孩18 小时前
数据权限为什么不能只靠注解?Forge 的 Mapper 层 SQL 改写源码拆解
java·后端·架构
tntxia19 小时前
Mybatis的日志输入
java
亦暖筑序20 小时前
Java 8老系统Browser Agent实战:三层拦截把AI操作后台变成可审计流程
java·后端·设计模式
用户298698530141 天前
Java 实现 Word 文档加密与权限解除
java·后端
Yeats_Liao1 天前
14:Servlet中的页面跳转-Java Web
java·后端·架构
未秃头的程序猿1 天前
告别"if-else地狱"!Java 21模式匹配,代码优雅了10倍
java·后端·面试