业务代码写不好直接把RabbitMQ干崩了

最近做了一次技术改造,由于对业务细节的不熟悉,开发代码细节处理不好,导致出了线上事故,把线上的服务和RabbitMQ内存都打满了。

事故回顾

  1. 中午11点左右业务人员反映系统异常,无法操作使用。
  2. 随后前台门户网站部分功能访问异常
  3. 开发人员进行紧急排查,发现是mq挤压
  4. 11点半左右,后台A服务所有副本已处于瘫痪状态,各种操作都是超时。
  5. 12点16左右紧急处理完问题上线服务,把挤压数据处理掉,线上服务逐渐恢复正常

原因剖析

1、生产者在推送mq消息的时候推送发布时间字段是空,导致queue消费端一直消费失败,消费者是开启自动ack,消费失败后又回到queue,接着再被消费,变成死循环,造成消息积压,导致rabbitmq机器内存一直在增长,吞吐量下降。 错误代码 错误日志: 2、因为queue消息积压内存持续增长,处理消息能力下降。生产者推送消息也要很久才会被ack确认。生产者的推送线程长时间处于阻塞状态,越来越多线程阻塞住,生产者也会被逐渐被拖垮。

生产者接口调用:

后续处理

迅速进行了线上服务回滚,保证了系统可用。相关开发人员根据问题定位做又一次迭代优化。 对于这种小架构级别的改动还是详细调用业务,梳理业务流程,画业务流程图,以方便测试人员针对性测试.

相关推荐
zopple22 分钟前
常见的 Spring 项目目录结构
java·后端·spring
cjy0001112 小时前
springboot的 nacos 配置获取不到导致启动失败及日志不输出问题
java·spring boot·后端
小江的记录本3 小时前
【事务】Spring Framework核心——事务管理:ACID特性、隔离级别、传播行为、@Transactional底层原理、失效场景
java·数据库·分布式·后端·sql·spring·面试
sheji34163 小时前
【开题答辩全过程】以 基于springboot的校园失物招领系统为例,包含答辩的问题和答案
java·spring boot·后端
程序员cxuan3 小时前
人麻了,谁把我 ssh 干没了
人工智能·后端·程序员
wuyikeer5 小时前
Spring Framework 中文官方文档
java·后端·spring
Victor3565 小时前
MongoDB(61)如何避免大文档带来的性能问题?
后端
Victor3565 小时前
MongoDB(62)如何避免锁定问题?
后端
wuyikeer5 小时前
Spring BOOT 启动参数
java·spring boot·后端
子木HAPPY阳VIP6 小时前
Ubuntu 22.04 VMware 设置固定IP配置
人工智能·后端·目标检测·机器学习·目标跟踪