生产环境超时问题最佳实践-从timeout导致500错误获得

最近发现线上系统的一个功能出现500错误。该功能是调用外部服务(内含把一个文件传给另一个平台),用同样文件,测试环境下测试可以,线上环境不行。先记录解决思路如下:

1、比较环境:测试环境和线上环境环境都是--前端 -> nginx -> 应用服务器。基本没差别。

2、根据日志找原因:

2.1 开始看到org.springframework.web.servlet.DispatcherServlet.processDispatchResult(1044) -- Null ModelAndView returned to DispatcherServlet with name 'xxx-servlet': assuming HandlerAdapter completed request handling

以为是这个原因导致(分析是后台还没处理完,前端请求超时导致HandlerAdapter completed request handling),还专门用程序调试了调用上传文件这个服务。

2.2 后结合浏览器、各端层面,初步判定是超时。因为测试环境外部带宽大,而线上环境外部带宽很小(主要用于监管服务器状态)。

3、解决问题

按下图修改各端连接的超时参数解决问题:

实际过程:由于一开始没有画这个图,凭经验一个个修改测试,修改的先后顺序就是图中红色数字表示(其中(*)表示不存在超时)。每个步骤一个个试,实际是花了很久时间的。得到的经验如下:
超时问题最佳实践:通常生产环境比较复杂,当发生超时问题时,应首先画出该超时功能流转图--即从前到后把每个独立部署点相连,然后逐一检查各个点之间连接是否存在超时要控制,这样可一次性处理到位

相关推荐
逸模1 小时前
告别熬夜手工整理台账,逸模智能归集实现项目数据自动化存档
大数据·运维·人工智能·笔记·其他·信息可视化·自动化
sbjdhjd1 小时前
Redis 主从复制、哨兵高可用与 Cluster 集群部署实验手册
运维·前端·redis·云原生·开源·bootstrap·html
AOwhisky2 小时前
MySQL 学习笔记(第四期):SQL 语言之多表查询
linux·运维·网络·数据库·笔记·学习·mysql
Phantom Void2 小时前
服务器处理客户端请求的设计方法
linux·运维·网络
倔强的石头1062 小时前
Fooocus开源神器+cpolarAI让绘画告别服务器依赖
运维·服务器·cpolar
wei_shuo2 小时前
服务器挂了等用户投诉才发现?我用Beszel搭了轻量监控系统,宕机第一时间通知我
运维·服务器
王码码20352 小时前
多台服务器怎么统一看状态?Beszel 轻量监控,搭起来不费事
运维·服务器·后端·安全·阿里云·接口·web
APItesterCris6 小时前
实战教程:借助 Open Claw + 淘宝商品 API,低成本实现电商自动化监控与智能选品
大数据·运维·自动化
风曦Kisaki7 小时前
# 自动化运维Day03:Ansible模块进阶(setup,debug),四种常用变量,进阶语法;Ansible Roles(角色)
运维·自动化·ansible
赵民勇7 小时前
Linux strings命令详解
linux·运维