事故回顾

中午11点左右业务人员反映系统异常，无法操作使用。
随后前台门户网站部分功能访问异常
开发人员进行紧急排查，发现是mq挤压
11点半左右，后台A服务所有副本已处于瘫痪状态，各种操作都是超时。
12点16左右紧急处理完问题上线服务，把挤压数据处理掉，线上服务逐渐恢复正常

原因剖析

1、生产者在推送mq消息的时候推送发布时间字段是空，导致queue消费端一直消费失败，消费者是开启自动ack，消费失败后又回到queue，接着再被消费，变成死循环，造成消息积压，导致rabbitmq机器内存一直在增长，吞吐量下降。错误代码错误日志： 2、因为queue消息积压内存持续增长，处理消息能力下降。生产者推送消息也要很久才会被ack确认。生产者的推送线程长时间处于阻塞状态，越来越多线程阻塞住，生产者也会被逐渐被拖垮。

生产者接口调用：

后续处理

迅速进行了线上服务回滚，保证了系统可用。相关开发人员根据问题定位做又一次迭代优化。对于这种小架构级别的改动还是详细调用业务，梳理业务流程，画业务流程图，以方便测试人员针对性测试.