阿里云 RocketMQ 4.0 可观测最佳实践

阿里云 RocketMQ 4.0 介绍

阿里云 RocketMQ 4.0 产品是阿里云早期基于 Apache RocketMQ 构建的分布式消息中间件,主要面向企业级消息传递和异步解耦场景。RocketMQ 4.0 在发布时已具备高吞吐、低延迟、可扩展的核心特性,支持顺序消息、事务消息、定时/延时消息等多种能力,帮助开发者快速实现系统间的可靠通信。相比更高版本,RocketMQ 4.0 在弹性伸缩、可观测性和集成易用性方面能力有限,更多依赖人工运维和监控工具。但通过合理部署与监控,仍能够满足大多数分布式系统的消息传递需求,为业务提供基础的高可用性和可靠性保障。

观测云

观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。

采集方法

  1. 登录观测云控制台
  2. 点击【集成】菜单,选择【云账号管理】
  3. 点击【添加云账号】,选择【阿里云】,填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤
  4. 点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
  5. 点击【云账号管理】列表上可以看到已添加的云账号,点击相应的云账号,进入详情页
  6. 点击云账号详情页的【集成】按钮,在未安装列表下,找到阿里云 RocketMQ 4.0,点击【安装】按钮,弹出安装界面安装即可。

关键指标

Metric Id Metric Name Dimensions Statistics Uni
ReadyMessages 已就绪消息量(Group) account_name,InstanceName Average,Maximum count
ReadyMessagesPerGidTopic 已就绪消息量(Group&Topic) account_name,InstanceName Average,Maximum count
ReceiveMessageCountPerGid 消费者每分钟接收消息数量(Group) account_name,InstanceName Average,Maximum count/min
ReceiveMessageCountPerGidTopic 消费者每分钟接收消息数量(Group&Topic) account_name,InstanceName Average,Maximum count/min
ReceiveMessageCountPerInstance 消费者每分钟接收消息数的数量(Instance) account_name,InstanceName Average,Maximum count/min
ReceiveMessageCountPerTopic 消费者每分钟接收消息的数量(Topic) account_name,InstanceName Average,Maximum count/min
SendDLQMessageCountPerGid 每分钟产生死信消息的数量(Group) account_name,InstanceName Average,Maximum count/min
SendDLQMessageCountPerGidTopic 每分钟产生死信消息的数量(Group&Topic) account_name,InstanceName Average,Maximum count/min
SendMessageCountPerInstance 生产者每分钟发送消息数量(Instance) account_name,InstanceName Average,Maximum count/min
SendMessageCountPerTopic 生产者每分钟发送消息数量(Topic) account_name,InstanceName Average,Maximum count/min
ThrottledReceiveRequestsPerGid 每分钟(GroupId)消费被限流次数 account_name,InstanceName Average,Maximum counts/min
ThrottledReceiveRequestsPerGidTopic 每分钟(GroupId&Topic)消费被限流次数 account_name,InstanceName Average,Maximum counts/min
ThrottledReceiveRequestsPerInstance 每分钟(Instance)消费被限流次数 account_name,InstanceName Average,Maximum counts/min
ThrottledSendRequestsPerInstance 每分钟(Instance)发送被限流次数 account_name,InstanceName Average,Maximum counts/min
ThrottledSendRequestsPerTopic 每分钟(Topic)发送被限流次数 account_name,InstanceName Average,Maximum counts/min

场景视图

登录观测云控制台,点击「场景」 -「新建仪表板」,输入 "阿里云 RocketMQ", 选择 "阿里云 RocketMQ4监控视图",点击 "确定" 即可添加视图。

监控器(告警)

ReadyMessagesPerGidTopic 消息堆积量异常

简要描述:消息堆积量异常通常表示某个 Group 或 Group&Topic 维度下的待消费消息数持续增加,说明消费者处理速度低于生产速度。这可能会导致消息延迟变大,甚至出现业务处理超时或丢弃风险。及时监控和处理堆积量异常,有助于发现消费性能瓶颈或消费者实例异常,保障消息系统的稳定性与业务的连续性。

ReceiveMessageCountPerGid / PerTopic

简要描述:消费者接收消息速率异常通常表示某个 Group、Topic 或整个实例的消费吞吐量低于预期。这可能源于消费者宕机、线程不足、消费逻辑耗时过长或网络瓶颈。持续的消费速率下降会导致消息堆积增加,从而影响业务的实时性。监控该指标可帮助及时发现和定位消费环节的问题,确保生产与消费之间的速率平衡。

总结

通过将阿里云 RocketMQ 4.0 的监控数据接入观测云,用户可实现更直观的运行监控与异常告警。观测云能够采集并展示消息堆积量、消费速率等关键指标,及时发现消费者性能瓶颈或消息延迟问题。借助智能告警与可视化视图,用户可快速定位异常、优化消费逻辑,从而提升系统稳定性与运维效率。整体而言,该方案帮助企业在传统 RocketMQ 4.0 环境下实现现代化可观测运维。

相关推荐
ZHW_AI课题组7 小时前
调用阿里云实现文本翻译功能
阿里云·云计算
阿乔外贸日记11 小时前
埃塞俄比亚出口全流程注意事项
大数据·人工智能·智能手机·云计算·汽车
hz5678913 小时前
公安局远程办案用什么音视频系统?安全取证与多方协同方案
安全·架构·云计算·音视频·实时音视频·信息与通信
翼龙云_cloud14 小时前
腾讯云代理商:为OpenClaw配置云开发CloudBase Skill 全自动开发上线
云计算·腾讯云·ai智能体
xhtdj15 小时前
从“小而美”到“一体化”腾讯云TDSQL如何拯救选型纠结?
云计算·腾讯云
程序猿小野16 小时前
在阿里云服务器上安装Docker部署后台项目
阿里云·docker·云计算
sbjdhjd17 小时前
04 (下) | K8S微服务实战:从 Service 到金丝雀发布
运维·微服务·云原生·kubernetes·开源·云计算·excel
ZHW_AI课题组18 小时前
使用阿里云 API 实现图像文字识别与校园文档智能分类系统
阿里云·云计算
云服务器代理商18 小时前
阿里云国内版迁移到国际版完整操作教程
服务器·阿里云·云计算·阿里云服务器·阿里云国际·阿里云海外
BAGAE18 小时前
PADS最新版保姆级图文安装教程
阿里云·智能路由器·pcb工艺·教育电商·电视