redis内存被打爆了

一次基于redis做队列消费cannel的binlog导致内存被打爆的场景分析

问题复现流程图:

  • 100万次 SQL 更新 → 100万个 Binlog 事件
  • 100万个事件 → 100万个队列任务(都在同一个业务队列中)
  • 100万个任务 → 100万个监控 Key(Horizon 监控每个任务)

每次 MySQL UPDATE 都会产生一个 Binlog 事件 100万次 UPDATE = 100万个 Binlog 事件

  • Canal 为每个 Binlog 事件创建一个队列任务
php 复制代码
foreach ($binlogEvents as $event) {
    // 每个事件都创建一个任务,塞到同一个队列
    Redis::lpush('ai_vending_horizon', json_encode([
        'id' => generateUUID(),
        'event' => $event,
        'timestamp' => time()
    ]));
}

horizon:laravel框架的queue队列管理服务 支持队列中每个任务的监控和管理 `

  • 暂停/恢复队列
  • 重试失败任务
  • 清空队列
  • 查看任务详情`
  • 任务超时

等等

Laravel Horizon 本身是个很好的工具,但在事故中:

  • 监控开销过大:每个任务都创建多个监控 Key
  • 缺乏批量处理:没有针对大批量任务的优化
  • 内存管理缺失:没有监控 Key 数量的限制
  • 缺乏redis内存监控告警

Horizon都干了啥?

arduino 复制代码
// 每个任务都会创建这些监控 Key
ai_phone_horizon:{task_id}           // 任务状态
ai_phone_horizon:{task_id}:metrics   // 性能指标
ai_phone_horizon:{task_id}:runtime   // 运行时间
ai_phone_horizon:{task_id}:memory    // 内存使用
ai_phone_horizon:{task_id}:failed    // 失败信息
ai_phone_horizon:{task_id}:retries   // 重试次数

任务级别的监控的作用

diff 复制代码
// 需要知道每个任务的状态
- 任务是否成功执行?
- 任务执行了多长时间?
- 任务消耗了多少内存?
- 任务失败了吗?
- 任务重试了几次?

监控开销计算

ini 复制代码
100万个任务 × 每个任务6个监控Key = 600万个 Redis Key

同时业务逻辑消费慢,任务被阻塞,导致任务队列数据数据越来越多,越来越大,变成一个吃内存的超级大key

优化、优化

相关推荐
三千星1 分钟前
Java开发者转型AI工程化Week 3:从LangChain4j到AI Agent
后端·langchain
AI人工智能+电脑小能手32 分钟前
【大白话说Java面试题 第45题】【JVM篇】第5题:JVM中,对象何时会进入老年代?
java·开发语言·jvm·后端·面试
空空潍1 小时前
MySQL存储引擎与索引深度解析
后端·sql·mysql·innodb
程序员三明治1 小时前
【AI】一文讲清 RAG:从大模型局限到企业级知识库落地流程
java·人工智能·后端·ai·大模型·llm·rag
l软件定制开发工作室1 小时前
Spring开发系列教程(37)——使用Conditional
java·后端·spring
yangminlei1 小时前
Spring Boot Starter自定义开发 构建企业级组件库
java·spring boot·后端
RemainderTime1 小时前
基于Spring AI + 阿里百炼 DashScope:构建 AI Agent RAG 企业级知识助手
人工智能·后端·spring·ai·es
接着奏乐接着舞1 小时前
springboot 常用注解
spring boot·后端·python
AI人工智能+电脑小能手1 小时前
【大白话说Java面试题 第44题】【JVM篇】第4题:什么时候会触发 Young GC?什么时候会触发 Full GC?
java·开发语言·jvm·后端·面试
Shadow(⊙o⊙)2 小时前
进程分析—从操作系统到Linux内核深入
linux·运维·服务器·开发语言·网络·c++·后端