阿里云 RocketMQ 4.0 可观测最佳实践

阿里云 RocketMQ 4.0 介绍

阿里云 RocketMQ 4.0 产品是阿里云早期基于 Apache RocketMQ 构建的分布式消息中间件,主要面向企业级消息传递和异步解耦场景。RocketMQ 4.0 在发布时已具备高吞吐、低延迟、可扩展的核心特性,支持顺序消息、事务消息、定时/延时消息等多种能力,帮助开发者快速实现系统间的可靠通信。相比更高版本,RocketMQ 4.0 在弹性伸缩、可观测性和集成易用性方面能力有限,更多依赖人工运维和监控工具。但通过合理部署与监控,仍能够满足大多数分布式系统的消息传递需求,为业务提供基础的高可用性和可靠性保障。

观测云

观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。

采集方法

  1. 登录观测云控制台
  2. 点击【集成】菜单,选择【云账号管理】
  3. 点击【添加云账号】,选择【阿里云】,填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤
  4. 点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
  5. 点击【云账号管理】列表上可以看到已添加的云账号,点击相应的云账号,进入详情页
  6. 点击云账号详情页的【集成】按钮,在未安装列表下,找到阿里云 RocketMQ 4.0,点击【安装】按钮,弹出安装界面安装即可。

关键指标

Metric Id Metric Name Dimensions Statistics Uni
ReadyMessages 已就绪消息量(Group) account_name,InstanceName Average,Maximum count
ReadyMessagesPerGidTopic 已就绪消息量(Group&Topic) account_name,InstanceName Average,Maximum count
ReceiveMessageCountPerGid 消费者每分钟接收消息数量(Group) account_name,InstanceName Average,Maximum count/min
ReceiveMessageCountPerGidTopic 消费者每分钟接收消息数量(Group&Topic) account_name,InstanceName Average,Maximum count/min
ReceiveMessageCountPerInstance 消费者每分钟接收消息数的数量(Instance) account_name,InstanceName Average,Maximum count/min
ReceiveMessageCountPerTopic 消费者每分钟接收消息的数量(Topic) account_name,InstanceName Average,Maximum count/min
SendDLQMessageCountPerGid 每分钟产生死信消息的数量(Group) account_name,InstanceName Average,Maximum count/min
SendDLQMessageCountPerGidTopic 每分钟产生死信消息的数量(Group&Topic) account_name,InstanceName Average,Maximum count/min
SendMessageCountPerInstance 生产者每分钟发送消息数量(Instance) account_name,InstanceName Average,Maximum count/min
SendMessageCountPerTopic 生产者每分钟发送消息数量(Topic) account_name,InstanceName Average,Maximum count/min
ThrottledReceiveRequestsPerGid 每分钟(GroupId)消费被限流次数 account_name,InstanceName Average,Maximum counts/min
ThrottledReceiveRequestsPerGidTopic 每分钟(GroupId&Topic)消费被限流次数 account_name,InstanceName Average,Maximum counts/min
ThrottledReceiveRequestsPerInstance 每分钟(Instance)消费被限流次数 account_name,InstanceName Average,Maximum counts/min
ThrottledSendRequestsPerInstance 每分钟(Instance)发送被限流次数 account_name,InstanceName Average,Maximum counts/min
ThrottledSendRequestsPerTopic 每分钟(Topic)发送被限流次数 account_name,InstanceName Average,Maximum counts/min

场景视图

登录观测云控制台,点击「场景」 -「新建仪表板」,输入 "阿里云 RocketMQ", 选择 "阿里云 RocketMQ4监控视图",点击 "确定" 即可添加视图。

监控器(告警)

ReadyMessagesPerGidTopic 消息堆积量异常

简要描述:消息堆积量异常通常表示某个 Group 或 Group&Topic 维度下的待消费消息数持续增加,说明消费者处理速度低于生产速度。这可能会导致消息延迟变大,甚至出现业务处理超时或丢弃风险。及时监控和处理堆积量异常,有助于发现消费性能瓶颈或消费者实例异常,保障消息系统的稳定性与业务的连续性。

ReceiveMessageCountPerGid / PerTopic

简要描述:消费者接收消息速率异常通常表示某个 Group、Topic 或整个实例的消费吞吐量低于预期。这可能源于消费者宕机、线程不足、消费逻辑耗时过长或网络瓶颈。持续的消费速率下降会导致消息堆积增加,从而影响业务的实时性。监控该指标可帮助及时发现和定位消费环节的问题,确保生产与消费之间的速率平衡。

总结

通过将阿里云 RocketMQ 4.0 的监控数据接入观测云,用户可实现更直观的运行监控与异常告警。观测云能够采集并展示消息堆积量、消费速率等关键指标,及时发现消费者性能瓶颈或消息延迟问题。借助智能告警与可视化视图,用户可快速定位异常、优化消费逻辑,从而提升系统稳定性与运维效率。整体而言,该方案帮助企业在传统 RocketMQ 4.0 环境下实现现代化可观测运维。

相关推荐
程序员Terry8 小时前
RocketMQ 使用指南
后端·rocketmq
可观测性用观测云9 小时前
阿里云 Tair 集群版可观测最佳实践
云计算·监控
耗子会飞9 小时前
小白学习springboot项目如何连接RocketMQ
后端·rocketmq
许国栋_14 小时前
B2B企业如何建设价值管理办公室(VMO)?实践与落地解析
人工智能·安全·云计算·产品经理
亚林瓜子16 小时前
为AWS ElastiCache添加CPU和内存利用率告警
云计算·aws
IT界的老黄牛16 小时前
RocketMQ 5.x 集群部署实战:3 台机器搞定 2 主 2 从,Docker Host 模式一把梭
docker·容器·rocketmq
乐观的Terry17 小时前
Docker 部署 RocketMQ 5.1.0 踩坑实录:从超时到 Console 连不上的完整解决之路
docker·容器·rocketmq
不爱学英文的码字机器17 小时前
Apache RocketMQ+cpolar 让消息服务全网可达
apache·rocketmq
SaaS_Product17 小时前
企业网盘哪个好?企业网盘选型需求分析
大数据·云计算·saas·onedrive
独自破碎E18 小时前
告别腾讯云 COS,用 GitHub + jsDelivr 搭建零成本图床
云计算·github·腾讯云