Spring Cloud Gateway 全链路监控与故障自愈实战

在生产环境中，仅实现网关的基础功能远远不够，还需保障 "可观测" 和 "高可用"------ 全链路监控可实时掌握网关运行状态，故障自愈可在服务异常时自动降级 / 重试，避免级联故障。本文结合Micrometer+Prometheus+Grafana实现网关全链路监控，基于Sentinel+Gateway重试机制实现故障自愈，打造高可用、可观测的生产级网关。

一、核心认知：监控与故障自愈的核心目标

1. 全链路监控核心目标

可观测：实时监控网关 QPS、响应时间、错误率、限流次数等核心指标；
可追溯：通过链路 ID（TraceId）追踪单个请求的完整生命周期；
可预警：基于监控指标设置阈值，异常时及时告警。

2. 故障自愈核心目标

重试：临时网络波动时自动重试请求，提升成功率；
熔断：后端服务故障时快速熔断，避免网关持续请求故障服务；
降级：熔断 / 限流时返回友好提示，保障用户体验。

二、实战 1：全链路监控（Micrometer+Prometheus+Grafana）

1. 引入监控依赖

2. 配置监控端点（application.yml）

3. 实现 TraceId 全链路追踪

在基础鉴权过滤器上扩展，添加 TraceId 并写入 MDC（日志上下文）：

4. 配置日志输出 TraceId（logback-spring.xml）

5. 对接 Prometheus 与 Grafana

（1）Prometheus 配置（prometheus.yml）

（2）Grafana 可视化

导入 Gateway 监控面板（推荐 ID：12900，适配 Spring Cloud Gateway）；
配置 Prometheus 数据源，即可看到核心指标：
- 网关总 QPS、各路由 QPS；
- 平均响应时间、95%/99% 响应时间；
- 错误请求数、限流次数；
- JVM 内存、CPU 使用率。

三、实战 2：故障自愈（重试 + 熔断 + 降级）

1. 配置网关重试机制

针对临时网络波动，自动重试幂等请求（如 GET）：

2. 完善 Sentinel 熔断降级

在基础熔断配置上，添加自定义降级响应和异常处理：

3. 配置服务降级兜底接口

当后端服务完全不可用时，网关返回兜底数据，避免返回 500 错误：

在路由中配置降级兜底：

四、核心监控指标与告警阈值

指标名称	采集来源	建议告警阈值
网关 QPS	Prometheus	超过单实例最大处理能力的 80%
95% 响应时间	Prometheus	> 500ms
错误率	Prometheus	> 5%
Sentinel 限流次数	Prometheus/Sentinel 控制台	1 分钟内超过 100 次
JVM 老年代使用率	Prometheus	> 90%

五、总结

全链路监控的核心是 TraceId 追踪 + Prometheus 指标采集 + Grafana 可视化，可实时掌握网关运行状态；
故障自愈需结合 "重试（临时故障）+ 熔断（持续故障）+ 降级（兜底响应）"，避免级联故障；
生产环境中需为监控指标设置合理告警阈值，做到 "早发现、早处理"，提升网关可用性。