记录skywalking预警如何处理401问题

在使用skywalking进行报警的时候,gateway经常会返回401,此时会产生很多误报和成功率下降的问题,

正确的做法是:推动公司制定统一的 API 响应规范,其实就是代码层面进行修改鉴权失败一律返回200,真正的业务错误码放在 JSON 响应体里。

c 复制代码
// HTTP Status: 200 OK
{
  "code": 401,
  "msg": "登录已超时,请重新登录",
  "data": null
}

无奈小运维人微言轻😄,并且确实看起来没啥实际影响,只能从运维侧这边想办法

目前正在Vibe一个skywalking的屏蔽状态码插件,比较临时的处理方式就是单独给gateway进行一个分组,连续出现低成功率才进行告警,可以大大降低误报概率

c 复制代码
  endpoint_sla_rule:
    expression: sum((endpoint_sla / 100) < 50) >= 3
    include-names-regex: ".* in gateway$"
    period: 5
    silence-period: 10
    message: "接口 {name} 最近5分钟内至少3分钟持续成功率低于50%"
    tags:
      level: WARNING
相关推荐
SRETalk1 天前
SkyWalking / Jaeger / ARMS 已经有了,还需要统一可观测平台吗
skywalking·apm·jaeger·flashcat·arms
云烟成雨TD3 天前
Spring AI 1.x 系列【52】可观测集成 SkyWalking
人工智能·spring·skywalking
接着奏乐接着舞5 天前
springcloud skywalking
spring·spring cloud·skywalking
weixin_3993806916 天前
Tongweb7049m10适配skywalking(by lqw)
java·skywalking
未若君雅裁20 天前
微服务监控与 SkyWalking 链路追踪
微服务·架构·skywalking
Jinkxs22 天前
SkyWalking - Kafka _ RabbitMQ 消息链路追踪支持
kafka·rabbitmq·skywalking
heimeiyingwang1 个月前
【架构实战】链路追踪SkyWalking:让请求无所遁形
架构·skywalking
不懂的浪漫1 个月前
OpenTelemetry 和 SkyWalking Agent 怎么选?一次讲清 OTel、SkyWalking Agent 的相同点与区别
wpf·skywalking·链路追踪·opentelemetry·otel
简简单单就是我_hehe1 个月前
Webfunny Apm + SkyWalking Agent 全链路监控实战:从集成到问题排查
skywalking
phltxy1 个月前
分布式链路追踪实战:Apache SkyWalking 从入门到精通
分布式·apache·skywalking