阿里云 RocketMQ 4.0 可观测最佳实践

阿里云 RocketMQ 4.0 介绍

阿里云 RocketMQ 4.0 产品是阿里云早期基于 Apache RocketMQ 构建的分布式消息中间件,主要面向企业级消息传递和异步解耦场景。RocketMQ 4.0 在发布时已具备高吞吐、低延迟、可扩展的核心特性,支持顺序消息、事务消息、定时/延时消息等多种能力,帮助开发者快速实现系统间的可靠通信。相比更高版本,RocketMQ 4.0 在弹性伸缩、可观测性和集成易用性方面能力有限,更多依赖人工运维和监控工具。但通过合理部署与监控,仍能够满足大多数分布式系统的消息传递需求,为业务提供基础的高可用性和可靠性保障。

观测云

观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。

采集方法

  1. 登录观测云控制台
  2. 点击【集成】菜单,选择【云账号管理】
  3. 点击【添加云账号】,选择【阿里云】,填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤
  4. 点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
  5. 点击【云账号管理】列表上可以看到已添加的云账号,点击相应的云账号,进入详情页
  6. 点击云账号详情页的【集成】按钮,在未安装列表下,找到阿里云 RocketMQ 4.0,点击【安装】按钮,弹出安装界面安装即可。

关键指标

Metric Id Metric Name Dimensions Statistics Uni
ReadyMessages 已就绪消息量(Group) account_name,InstanceName Average,Maximum count
ReadyMessagesPerGidTopic 已就绪消息量(Group&Topic) account_name,InstanceName Average,Maximum count
ReceiveMessageCountPerGid 消费者每分钟接收消息数量(Group) account_name,InstanceName Average,Maximum count/min
ReceiveMessageCountPerGidTopic 消费者每分钟接收消息数量(Group&Topic) account_name,InstanceName Average,Maximum count/min
ReceiveMessageCountPerInstance 消费者每分钟接收消息数的数量(Instance) account_name,InstanceName Average,Maximum count/min
ReceiveMessageCountPerTopic 消费者每分钟接收消息的数量(Topic) account_name,InstanceName Average,Maximum count/min
SendDLQMessageCountPerGid 每分钟产生死信消息的数量(Group) account_name,InstanceName Average,Maximum count/min
SendDLQMessageCountPerGidTopic 每分钟产生死信消息的数量(Group&Topic) account_name,InstanceName Average,Maximum count/min
SendMessageCountPerInstance 生产者每分钟发送消息数量(Instance) account_name,InstanceName Average,Maximum count/min
SendMessageCountPerTopic 生产者每分钟发送消息数量(Topic) account_name,InstanceName Average,Maximum count/min
ThrottledReceiveRequestsPerGid 每分钟(GroupId)消费被限流次数 account_name,InstanceName Average,Maximum counts/min
ThrottledReceiveRequestsPerGidTopic 每分钟(GroupId&Topic)消费被限流次数 account_name,InstanceName Average,Maximum counts/min
ThrottledReceiveRequestsPerInstance 每分钟(Instance)消费被限流次数 account_name,InstanceName Average,Maximum counts/min
ThrottledSendRequestsPerInstance 每分钟(Instance)发送被限流次数 account_name,InstanceName Average,Maximum counts/min
ThrottledSendRequestsPerTopic 每分钟(Topic)发送被限流次数 account_name,InstanceName Average,Maximum counts/min

场景视图

登录观测云控制台,点击「场景」 -「新建仪表板」,输入 "阿里云 RocketMQ", 选择 "阿里云 RocketMQ4监控视图",点击 "确定" 即可添加视图。

监控器(告警)

ReadyMessagesPerGidTopic 消息堆积量异常

简要描述:消息堆积量异常通常表示某个 Group 或 Group&Topic 维度下的待消费消息数持续增加,说明消费者处理速度低于生产速度。这可能会导致消息延迟变大,甚至出现业务处理超时或丢弃风险。及时监控和处理堆积量异常,有助于发现消费性能瓶颈或消费者实例异常,保障消息系统的稳定性与业务的连续性。

ReceiveMessageCountPerGid / PerTopic

简要描述:消费者接收消息速率异常通常表示某个 Group、Topic 或整个实例的消费吞吐量低于预期。这可能源于消费者宕机、线程不足、消费逻辑耗时过长或网络瓶颈。持续的消费速率下降会导致消息堆积增加,从而影响业务的实时性。监控该指标可帮助及时发现和定位消费环节的问题,确保生产与消费之间的速率平衡。

总结

通过将阿里云 RocketMQ 4.0 的监控数据接入观测云,用户可实现更直观的运行监控与异常告警。观测云能够采集并展示消息堆积量、消费速率等关键指标,及时发现消费者性能瓶颈或消息延迟问题。借助智能告警与可视化视图,用户可快速定位异常、优化消费逻辑,从而提升系统稳定性与运维效率。整体而言,该方案帮助企业在传统 RocketMQ 4.0 环境下实现现代化可观测运维。

相关推荐
咕噜企业分发小米2 小时前
腾讯云CMP与阿里云合规工具集成时,如何优化SCF函数的性能?
阿里云·php·腾讯云
咕噜企业分发小米2 小时前
腾讯云CMP与阿里云合规工具集成时,如何评估集成的复杂度?
阿里云·云计算·腾讯云
顾北122 小时前
RAG 入门到实战:Spring AI 搭建旅游问答知识库(本地 + 阿里云百炼双方案)
java·人工智能·阿里云
xiaolyuh1233 小时前
Kafka、RocketMQ、RabbitMQ 事务消息核心差异对比
kafka·rabbitmq·rocketmq
星辰_mya3 小时前
超时未支付订单之分库分表+定时任务+RMQ延时消息
java·架构·rocketmq
2501_948120153 小时前
云计算环境下资源需求预测与优化配置方法研究
云计算
XMYX-014 小时前
Ubuntu 22.04.5 LTS 安装 Docker 29.1.5(阿里云镜像,生产环境实战)
ubuntu·阿里云·docker
峰顶听歌的鲸鱼14 小时前
Kubernetes管理
运维·笔记·云原生·容器·kubernetes·云计算
猿码优创15 小时前
过滤境外ip和域名访问的解决方案
网络·网络协议·tcp/ip·安全·阿里云