阿里云 Tair 集群版可观测最佳实践

阿里云 Tair 集群版介绍

Tair 集群版是阿里云在开源 Redis 基础上进行深度优化和增强的企业级内存数据库服务。它专为应对大规模、高性能、高可用的场景而设计,解决了开源 Redis 集群在容量、性能、稳定性和功能上的一些局限性。

Tair 集群版的核心定位是:提供一个线性扩展、高性能、高可用的分布式内存数据库解决方案,满足企业在海量数据、高并发访问场景下的严苛要求。

观测云

观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。

采集器配置

  1. 登录观测云控制台
  2. 点击【集成】菜单,选择【云账号管理】
  3. 点击【添加云账号】,选择【阿里云】,填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤
  4. 点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
  5. 点击【云账号管理】列表上可以看到已添加的云账号,点击相应的云账号,进入详情页
  6. 点击云账号详情页的【集成】按钮,在未安装列表下,找到阿里云 Redis/Tair 集群版,点击【安装】按钮,弹出安装界面安装即可。

关键指标

指标名称 描述 单位
ShardingCpuUsage 数据节点CPU 使用率 %
ShardingMemoryUsage 数据节点内存使用率 %
ShardingConnectionUsage DB连接数使用率 %
ShardingIntranetIn 数据节点流入带宽 KiB/s
ShardingIntranetOut 数据节点流出带宽 KiB/s
ShardingIntranetInRatio 数据节点流入带宽使用率 %
ShardingIntranetOutRatio 数据节点流出带宽使用率 %
ShardingHitRate 数据节点命中率 %
ShardingUsedQPS 数据节点平均每秒访问次数 Count
ShardingAvgRt 数据节点平均响应时间 us
ShardingProxyCpuUsage Proxy CPU使用率 %
ShardingProxyConnectionUsage Proxy连接数使用率 %
ShardingProxyIntranetIn Proxy入流量速率 KiB/s
ShardingProxyIntranetOut Proxy出流量速率 KiB/s
ShardingProxyAvgRt Proxy平均时延 us
ShardingProxyUsedConnection Proxy已使用连接数 Count

场景视图

登录观测云控制台,点击「场景」 -「新建仪表板」,输入 "redis", 选择 "阿里云 Redis 集群版监控视图",点击 "确定" 即可添加视图。

监控器(告警)

观测云内置了监控器模板,可以选择从模版创建监控器,并开启适合业务的监控器以及时通知相关成员关注问题,触发条件、频率等信息可以依据实际业务进行调整。

登录观测云控制台,点击「监控」 -「监控器」 -「从模版新建」,输入 "redis", 选择对应的监控器,点击 "确定" 即可添加。

CPU 使用率过高

ShardingCpuUsage:表示 Tair 集群每个数据分片的 CPU 资源使用率。当 CPU 使用率大于等于 90% 时发出严重告警,当 CPU 使用率在 80%-90% 之间时发出重要告警。

内存使用率过高

ShardingMemoryUsage:表示 Tair 集群每个数据分片的内存使用率。当内存使用率大于等于 90% 时发出严重告警,当内存使用率在 80%-90% 之间时发出重要告警。

连接数使用率过高

ShardingConnectionUsage:表示 Tair 集群中每一个数据分片的当前连接数占其最大连接数上限的百分比。当连接数使用率大于等于 90% 时发出严重告警,当连接数使用率在 80%-90% 之间时发出重要告警。

总结

通过将阿里云 Tair 集群版的原生监控数据集成到观测云平台,用户可以实现对 Tair 集群的实时性能监控、资源使用分析以及安全事件的可视化。观测云的高级分析和可视化功能,如实时仪表板、智能告警和根因分析,能够帮助用户快速定位问题、优化成本,并确保数据的高可用性和安全性。这种结合不仅提升了监控的效率和准确性,还通过集中管理的方式简化了运维流程,使用户能够更好地应对复杂的云环境挑战。

相关推荐
一步一个脚印一个坑3 小时前
用 APM 全链路追踪,29ms 内定位到 Docker 部署的 SSL 配置错误
javascript·后端·监控
许国栋_6 小时前
B2B企业如何建设价值管理办公室(VMO)?实践与落地解析
人工智能·安全·云计算·产品经理
亚林瓜子8 小时前
为AWS ElastiCache添加CPU和内存利用率告警
云计算·aws
SaaS_Product10 小时前
企业网盘哪个好?企业网盘选型需求分析
大数据·云计算·saas·onedrive
独自破碎E10 小时前
告别腾讯云 COS,用 GitHub + jsDelivr 搭建零成本图床
云计算·github·腾讯云
TG_yunshuguoji11 小时前
阿里云代理商:怎么创建和连接RDS云数据库?
数据库·阿里云·云计算
gaize121311 小时前
阿里云通用算力 u1|均衡性能省心之选
阿里云·云计算
weixin_4573418911 小时前
2026年阿里云ECS服务器全攻略:从基础认知和价格体系到购买以及部署流程
服务器·阿里云·云计算
沐欣工作室_lvyiyi11 小时前
基于腾讯云的智能家居监控系统的设计开发(论文+源码)
单片机·云计算·毕业设计·智能家居·腾讯云