生产环境超时问题最佳实践-从timeout导致500错误获得

最近发现线上系统的一个功能出现500错误。该功能是调用外部服务(内含把一个文件传给另一个平台),用同样文件,测试环境下测试可以,线上环境不行。先记录解决思路如下:

1、比较环境:测试环境和线上环境环境都是--前端 -> nginx -> 应用服务器。基本没差别。

2、根据日志找原因:

2.1 开始看到org.springframework.web.servlet.DispatcherServlet.processDispatchResult(1044) -- Null ModelAndView returned to DispatcherServlet with name 'xxx-servlet': assuming HandlerAdapter completed request handling

以为是这个原因导致(分析是后台还没处理完,前端请求超时导致HandlerAdapter completed request handling),还专门用程序调试了调用上传文件这个服务。

2.2 后结合浏览器、各端层面,初步判定是超时。因为测试环境外部带宽大,而线上环境外部带宽很小(主要用于监管服务器状态)。

3、解决问题

按下图修改各端连接的超时参数解决问题:

实际过程:由于一开始没有画这个图,凭经验一个个修改测试,修改的先后顺序就是图中红色数字表示(其中(*)表示不存在超时)。每个步骤一个个试,实际是花了很久时间的。得到的经验如下:
超时问题最佳实践:通常生产环境比较复杂,当发生超时问题时,应首先画出该超时功能流转图--即从前到后把每个独立部署点相连,然后逐一检查各个点之间连接是否存在超时要控制,这样可一次性处理到位

相关推荐
谷粒.12 分钟前
云原生测试:在分布式系统中的质量保障策略
运维·python·测试工具·云原生·架构·自动化·测试覆盖率
mzlogin12 分钟前
如何在 IT 运维中节省开支
运维·devops
Ditglu.21 分钟前
数据库运维(DBA)职业能力提升知识库
运维·数据库·dba
狂奔solar26 分钟前
agent 自反馈实现用户triage feedback 自动化分析
运维·人工智能·自动化
gaize121332 分钟前
服务器数据如何恢复,看这里
运维·服务器
月亮!32 分钟前
IoT测试全解析:从嵌入式到云端的质量链条
运维·网络·人工智能·python·物联网·测试工具·自动化
遇见火星34 分钟前
Linux 服务器被入侵后,如何通过登录日志排查入侵源?【实战指南】
linux·运维·服务器·入侵·日志排查
凯子坚持 c37 分钟前
Docker 容器全生命周期管理与实操深度解析
运维·docker·容器
2501_916007471 小时前
在 CICD 中实践 Fastlane + Appuploader 命令行,构建可复制的 iOS 自动化发布流程
android·运维·ios·小程序·uni-app·自动化·iphone
model20051 小时前
Alibaba linux 3安装LAMP(2)
linux·运维·服务器