生产环境超时问题最佳实践-从timeout导致500错误获得

最近发现线上系统的一个功能出现500错误。该功能是调用外部服务(内含把一个文件传给另一个平台),用同样文件,测试环境下测试可以,线上环境不行。先记录解决思路如下:

1、比较环境:测试环境和线上环境环境都是--前端 -> nginx -> 应用服务器。基本没差别。

2、根据日志找原因:

2.1 开始看到org.springframework.web.servlet.DispatcherServlet.processDispatchResult(1044) -- Null ModelAndView returned to DispatcherServlet with name 'xxx-servlet': assuming HandlerAdapter completed request handling

以为是这个原因导致(分析是后台还没处理完,前端请求超时导致HandlerAdapter completed request handling),还专门用程序调试了调用上传文件这个服务。

2.2 后结合浏览器、各端层面,初步判定是超时。因为测试环境外部带宽大,而线上环境外部带宽很小(主要用于监管服务器状态)。

3、解决问题

按下图修改各端连接的超时参数解决问题:

实际过程:由于一开始没有画这个图,凭经验一个个修改测试,修改的先后顺序就是图中红色数字表示(其中(*)表示不存在超时)。每个步骤一个个试,实际是花了很久时间的。得到的经验如下:
超时问题最佳实践:通常生产环境比较复杂,当发生超时问题时,应首先画出该超时功能流转图--即从前到后把每个独立部署点相连,然后逐一检查各个点之间连接是否存在超时要控制,这样可一次性处理到位

相关推荐
乘云数字DATABUFF4 天前
5分钟部署开源APM Databuff:OpenTelemetry全链路追踪入门实战
运维·后端
荣--6 天前
一键部署不是为了省时间 —— 它是把"买来的 PaaS"变成"自己的平台"的拐点
运维·zabbix·工程化·一键部署·平台化·边界设计
江华森6 天前
动手实战学 Docker — 从零到集群编排完全指南
运维
Avan_菜菜6 天前
FRP 内网穿透完整实战:从 HTTP 映射到 HTTPS 自签代理
运维·nginx·https
SelectDB7 天前
Litefuse 开源并推出单进程轻量模式,25 秒就能跑起来的 Agent 可观测与评估平台
运维·后端·自动化运维
XIAOHEZIcode9 天前
Linux系统鼠标偏移常见原因以及修复方案
linux·运维·游戏
用户0328472220709 天前
如何搭建本地yum源(上)
运维
大树8812 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
摇滚侠12 天前
Linux CentOS7 rpm 安装 MySQL 5.7
linux·运维·mysql
霸道流氓气质12 天前
领域驱动设计(DDD)在 Spring Boot 微服务中的实践指南
运维·spring boot·微服务