记一次DNS故障导致用户无法充值的问题(上)

背景:

刚刚过去了五一劳动节,回来后一上班接到客服运营团队反馈的节日期间的问题,反馈有部分用户无法充值。拿到的反馈资料有:

无法充值操作视频、问题时间、手机机型、手机网络情况。

1、从视频中看到用户点击支付后没有任何反应,就像没有进行前后端通信一样

2、排查后端服务器日志,没有访问支付业务的任何accesslog

3、不是所有的用户都无法进行充值

4、用户网络有wifi、有4G

和相关小伙伴讨论无果,QA部门也无法复现用户问题。

分析:

忽然想到10年前在上一家公司时,出现过用户的客户端无法进行更新问题,现象和这个很像。同样是部分用户无法更新。

让运维团队排查DNS的解析,由于没有使用流量分析服务,发现没有DNS的日志。

了解到我司使用的DNS版本【免费版】。

查看阿里云的DNS不同版本的说明,恍然大悟,起码到【个人版】才能保证DNS100%的可用性

确诊:

通过拨测平台发现来自湖北省多个地区有解析异常情况结果为【127.0.0.1】【空白】。对比用户活跃地区IP地址查询,出问题的用户归属地都来自湖北省。

到此问题基本定位为DNS解析问题,接下来如何解决用户问题?且听下回分解。

相关推荐
Alex艾力的IT数字空间7 小时前
在 Kylin(麒麟)操作系统上搭建 Docker 环境
大数据·运维·缓存·docker·容器·负载均衡·kylin
陳10307 小时前
Linux:进程间切换与调度
linux·运维·服务器
JJay.9 小时前
Android BLE 稳定连接的关键,不是扫描,而是 GATT 操作队列
android·服务器·前端
SilentSamsara9 小时前
TCP 三次握手:连接建立失败的那些坑
运维·服务器·网络·网络协议·tcp/ip
code tsunami10 小时前
如何在车辆数据自动化中解决Cloudflare Turnstile
运维·microsoft·自动化
翼龙云_cloud11 小时前
亚马逊云代理商:CloudWatch Agent 全解析 5 步实现服务器监控
运维·服务器·云计算·aws·云服务器
Cyber4K12 小时前
【Nginx专项】基础入门篇:状态页、微更新、内容替换、读取、压缩及防盗链
linux·运维·服务器·nginx·github
门思科技13 小时前
LoRaWAN项目无需NS和平台?一体化网关如何简化部署与成本
服务器·网络·物联网
Bruce_Liuxiaowei13 小时前
顺藤摸瓜:一次从防火墙告警到设备实物的溯源实战
运维·网络·网络协议·安全
IpdataCloud14 小时前
效果广告中点击IP与转化IP不一致?用IP查询怎么做归因分析?
运维·服务器·网络