记录skywalking预警如何处理401问题

在使用skywalking进行报警的时候,gateway经常会返回401,此时会产生很多误报和成功率下降的问题,

正确的做法是:推动公司制定统一的 API 响应规范,其实就是代码层面进行修改鉴权失败一律返回200,真正的业务错误码放在 JSON 响应体里。

c 复制代码
// HTTP Status: 200 OK
{
  "code": 401,
  "msg": "登录已超时,请重新登录",
  "data": null
}

无奈小运维人微言轻😄,并且确实看起来没啥实际影响,只能从运维侧这边想办法

目前正在Vibe一个skywalking的屏蔽状态码插件,比较临时的处理方式就是单独给gateway进行一个分组,连续出现低成功率才进行告警,可以大大降低误报概率

c 复制代码
  endpoint_sla_rule:
    expression: sum((endpoint_sla / 100) < 50) >= 3
    include-names-regex: ".* in gateway$"
    period: 5
    silence-period: 10
    message: "接口 {name} 最近5分钟内至少3分钟持续成功率低于50%"
    tags:
      level: WARNING
相关推荐
dEso RSET1 天前
Skywalking介绍,Skywalking 9.4 安装,SpringBoot集成Skywalking
spring boot·后端·skywalking
身如柳絮随风扬5 天前
链路追踪SkyWalking 架构了解
架构·skywalking
洒满阳光的午后9 天前
我做了一个“能理解业务语义”的可观测性 MCP Server:统一接入 Prometheus、OpenObserve 和 SkyWalking
人工智能·ai·prometheus·skywalking·openobserve·mcp
梵得儿SHI9 天前
SpringCloud 实战落地:可观测性建设(SkyWalking + Prometheus + Grafana)从 0 到 1 生产级部署
grafana·prometheus·springcloud·skywalking·微服务可观测性·线上问题排查
Jinkxs11 天前
SkyWalking - Spring Cloud Alibaba 全链路追踪实战
skywalking
烛之武12 天前
Skywalking服务链路追踪与Jemeter压力测试
压力测试·skywalking
鬼先生_sir13 天前
Spring Cloud 微服务监控实战:SkyWalking + Prometheus+Grafana 全栈解决方案
运维·spring cloud·grafana·prometheus·skywalking
dgvri18 天前
Skywalking介绍,Skywalking 9.4 安装,SpringBoot集成Skywalking
spring boot·后端·skywalking
rOuN STAT19 天前
Skywalking介绍,Skywalking 9.4 安装,SpringBoot集成Skywalking
spring boot·后端·skywalking
危笑ioi19 天前
helm部署skywalking链路追踪 java
java·开发语言·skywalking