记一次由于.netcore程序堆栈溢出的问题分析

背景

今天本来是星期五,工作中一切都很顺利,没想到群里有前端的同事艾特我说出问题了,说api访问返回了502,我的第一个反应是被nginx网关限流了,但是又分析其他的api都访问的挺好的,这一下子激发了我的挑战欲望。

解决问题步骤

步骤1.排查前端访问api的情况

api接口存在返回502的情况,第一反应就是nginx网关限流了,于是我调整了nginx的限流策略,但是接口502的情况依然存在,这下就更奇怪了,

步骤2.排查api接口代码问题

找到其中两个返回502的接口,本地通过postman调用,接口1没问题,但是接口2调用就报错了,果然发现了问题是堆栈溢出的问题,直接导致程序崩溃了,

步骤3.排查代码问题

发现是某个方法中采用了递归语法导致接口无限递归,进而导致程序中的堆栈溢出,程序就崩溃了。

问题分析:

从调用链可以看出:

  1. GetMenuNodes 方法调用了 ToList()

  2. ToList() 内部调用了 LINQ 操作

  3. LargeArrayBuilder 在分配缓冲区时发生堆栈溢出

步骤4. 分析出是数据问题导致的

由于这段递归代码是祖传老代码了,已经很久没有人改过这里了,那么就只能是数据问题了,

还记得上午在同事位置上闲聊,看到前端直接修改数据库,而且修改思路比后端的同事还熟悉,当时我就诧异了,刚出问题的时候我也没有想到这一块,然后结合刚好是这个同事在群里艾特我说api出问题了,这下就都通了。

步骤5. 分析数据到底哪里出问题了

原来将数据库中的一条数据的父级编码parent_page_code写为自己了,导致程序无止境的调用递归,导致了最后程序堆栈耗尽。

数据分析:

  • 第1行:page_code = 21001, parent_page_code = 21001自己指向自己

  • 其他行:page_code = 21001001, parent_page_code = 21001

问题在于:

  1. id=145 的记录中,parent_page_code = 21001 指向了自己的 page_code

  2. 这导致在递归构建树时,节点会把自己作为子节点

  3. 形成无限递归:21001 → 21001 → 21001 → ...

总结

从最初的api接口返回502状态码,误以为是nginx网关限流问题,排查分析得出是程序堆栈溢出的问题,那么程序又是如何出现这种幻觉的呢?

仔细分析一下:由于生产环境是通过systemctl部署在liunx服务中(启用了自动重启机制),如果前端一旦调用接口1的接口就会导致程序崩溃,但是systemctl会立马重启api,就在重启的过程中,如果再次有接口请求进来则都会返回502。

相关推荐
武藤一雄1 天前
C#常见面试题100问 (第一弹)
windows·microsoft·面试·c#·.net·.netcore
猹叉叉(学习版)4 天前
【ASP.NET CORE】 14. RabbitMQ、洋葱架构
笔记·后端·架构·c#·rabbitmq·asp.net·.netcore
Murphy20235 天前
.NetCore项目使用EF Core操作SQL Server
.netcore
码界奇点6 天前
基于.NET Core的CMS内容管理系统设计与实现
c++·毕业设计·.netcore·源代码管理
猹叉叉(学习版)6 天前
【ASP.NET CORE】 13. DDD初步实现
笔记·后端·架构·c#·asp.net·.netcore
武藤一雄6 天前
WPF Command 设计思想与实现剖析
windows·微软·c#·.net·wpf·.netcore
武藤一雄6 天前
WPF 资源解析:StaticResource & DynamicResource 实战指南
微软·c#·.net·wpf·.netcore
武藤一雄6 天前
WPF UI 开发深度指南:资源 (Resources)、样式 (Style) 与触发器 (Trigger) 全解析
ui·c#·.net·wpf·.netcore·avalonia
吹牛不交税6 天前
vue3项目部署到阿里云Alibaba Cloud Linux3系统的docker
docker·容器·.netcore
猹叉叉(学习版)7 天前
【ASP.NET CORE】 12. DDD基本概念
笔记·后端·架构·c#·asp.net·.netcore