生产问题排查记录

问题背景

XX项目已经上线一两个月了,前期非常顺利,用户访问量也日益增长;但是在上一周开始,陆陆续续有用户开始出现初始请求列表为空的状态;重复刷新没有数据显示,大部分用户是正常显示的,当时只有6个用户异常,而且这些用户之前都是正常访问,用户的版本都是最新的,同时引导用户清理缓存、重装 App 都未生效。

分析排查过程

  • 后端开始排查:1、搜索这些用户相关的接口请求日志,发现完全没有请求痕迹;2、使用这些用户的请求参数模拟访问,发现接口返回正常;开始怀疑是前端和原生这块的问题,由于这个页面是原生重构为 H5,走的是原生的容器,很大可能是因为这块转发或者缓存异常的问题。
  • 由于前端没有错误日志上报,只能通过加错误提示放到页面中,但是由于没有上报日志,只有错误提示,还是定位不到任何问题;此时异常的用户陆陆续续开始增多,达到10个了;最后前端增加了异常 Sentry 上报,开始收集错误日志。
  • 顺利拿到了上报日志,接口参数正常,报的是 Network error;也就是网络异常,请求发送直接被返回 null,接口还是没有任何日志收到,最后团队的大佬开始分析网络层的问题------域名解析,开始核对 Nginx 配置,发现内地的 Nginx 并没有配置转发,所有请求都解析到 HK,内地的一些用户访问不到,直接报网络异常;

总结分析

当时自己根本没有想到是网络层的问题,只怀疑是前端或者后端出现问题,自己的思维还是太死板了,客户端------>网络层------>后端服务;都可能有问题,而且变量有很多,网络层就是一个充满变化的变量;当所有变量都排查完之后,要把视野放在未排查的地方,这是自然的逻辑,自己由于缺少经验,没有往这方面去想,也就被问题蒙蔽了双眼,问题是最好的老师,网络层这块也真的要补补了,公司有运维,他们是负责这块配置,但是出了问题,只有开发自己排查,如果不熟悉整个请求链路,是没办法查明白真相的,学无止境,也警醒自己!

相关推荐
XMYX-03 小时前
30 - Go 随机数与 UUID 生成:原理、陷阱与工程实践
开发语言·golang
oioihoii3 小时前
我的第一次移动端 AI 办公:在地铁上把 Bug 修了
人工智能·bug
Coder_Shenshen3 小时前
【基于LibUA库的OPC UA服务器与客户端Demo——协议解析与Bug修复实践】
网络·c#·bug
Wy_编程4 小时前
go语言中的Channel
开发语言·golang
Aurorar0rua12 小时前
CS50 x 2024 Notes C -14
c语言·开发语言·学习方法
Aurorar0rua19 小时前
CS50 x 2024 Notes C -12
c语言·开发语言·学习方法
加油201920 小时前
方法论:进入新公司如何快速产出成果?
跳槽·学习方法·方法论
Wy_编程21 小时前
go中的协程Goroutine
开发语言·golang
会编程的土豆21 小时前
Go 语言中的 `new` 关键字(创建指针)
java·算法·golang