如何负责一个系统的稳定性

黄金指标

  1. 延迟: 接口的RT。P99
  2. 流量: 接口能承受的最大QPS,TPS
  3. 错误: 单位时间内,报错个数,业务失败个数
  4. 饱和度: cpu使用率,内存使用率,数据库连接池,线程池,磁盘等使用率

如果让你接手一个新系统,如何保证稳定性

  1. 明确服务责任边界: 这个服务是干嘛的
  2. 摸清家底: 梳理服务所有出口与入口,都有谁在调用我。我又在调用谁,对谁有依赖。每个接口的重要性进行排序,每个接口的黄金指标和上下游对齐(包括qps,rt等等)
  3. 点亮监控: 基于第二步结果,对每个接口的不同指标要求加上监控。
  4. 演练与压测:
相关推荐
一只叫煤球的猫1 小时前
别再把 Lambda 当匿名类:这 9 类坑你一定踩过
java·后端·面试
知识即是力量ol1 小时前
微服务架构:从入门到进阶完全指南
java·spring cloud·微服务·nacos·架构·gateway·feign
Javatutouhouduan1 小时前
RocketMQ是怎么保存偏移量的?
java·消息队列·rocketmq·java面试·消息中间件·后端开发·java程序员
天若有情6732 小时前
IoC不止Spring!求同vs存异,两种反向IoC的核心逻辑
java·c++·后端·算法·spring·架构·ioc
彭于晏Yan2 小时前
LangChain4j实战三:图像模型
java·spring boot·后端·langchain
SimonKing2 小时前
跨越数据孤岛!SpringBoot使用JDBC调用Calcite联邦查询实战
java·后端·程序员
好家伙VCC2 小时前
# 发散创新:基于Python的TTS语音合成实战与优化策略 在人工智能加速落地的今天,**文本转
java·开发语言·人工智能·python
等D春C夏X3 小时前
最终版C++11/14/17学习大纲(精准核对42条条款)
java·开发语言
Cg136269159743 小时前
HTML标题标签
java