阿里云 Tair 集群版介绍
Tair 集群版是阿里云在开源 Redis 基础上进行深度优化和增强的企业级内存数据库服务。它专为应对大规模、高性能、高可用的场景而设计,解决了开源 Redis 集群在容量、性能、稳定性和功能上的一些局限性。
Tair 集群版的核心定位是:提供一个线性扩展、高性能、高可用的分布式内存数据库解决方案,满足企业在海量数据、高并发访问场景下的严苛要求。
观测云
观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。
采集器配置
- 登录观测云控制台
- 点击【集成】菜单,选择【云账号管理】
- 点击【添加云账号】,选择【阿里云】,填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤
- 点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
- 点击【云账号管理】列表上可以看到已添加的云账号,点击相应的云账号,进入详情页
- 点击云账号详情页的【集成】按钮,在未安装列表下,找到阿里云 Redis/Tair 集群版,点击【安装】按钮,弹出安装界面安装即可。

关键指标
| 指标名称 | 描述 | 单位 |
|---|---|---|
| ShardingCpuUsage | 数据节点CPU 使用率 | % |
| ShardingMemoryUsage | 数据节点内存使用率 | % |
| ShardingConnectionUsage | DB连接数使用率 | % |
| ShardingIntranetIn | 数据节点流入带宽 | KiB/s |
| ShardingIntranetOut | 数据节点流出带宽 | KiB/s |
| ShardingIntranetInRatio | 数据节点流入带宽使用率 | % |
| ShardingIntranetOutRatio | 数据节点流出带宽使用率 | % |
| ShardingHitRate | 数据节点命中率 | % |
| ShardingUsedQPS | 数据节点平均每秒访问次数 | Count |
| ShardingAvgRt | 数据节点平均响应时间 | us |
| ShardingProxyCpuUsage | Proxy CPU使用率 | % |
| ShardingProxyConnectionUsage | Proxy连接数使用率 | % |
| ShardingProxyIntranetIn | Proxy入流量速率 | KiB/s |
| ShardingProxyIntranetOut | Proxy出流量速率 | KiB/s |
| ShardingProxyAvgRt | Proxy平均时延 | us |
| ShardingProxyUsedConnection | Proxy已使用连接数 | Count |
场景视图
登录观测云控制台,点击「场景」 -「新建仪表板」,输入 "redis", 选择 "阿里云 Redis 集群版监控视图",点击 "确定" 即可添加视图。

监控器(告警)
观测云内置了监控器模板,可以选择从模版创建监控器,并开启适合业务的监控器以及时通知相关成员关注问题,触发条件、频率等信息可以依据实际业务进行调整。
登录观测云控制台,点击「监控」 -「监控器」 -「从模版新建」,输入 "redis", 选择对应的监控器,点击 "确定" 即可添加。

CPU 使用率过高
ShardingCpuUsage:表示 Tair 集群每个数据分片的 CPU 资源使用率。当 CPU 使用率大于等于 90% 时发出严重告警,当 CPU 使用率在 80%-90% 之间时发出重要告警。

内存使用率过高
ShardingMemoryUsage:表示 Tair 集群每个数据分片的内存使用率。当内存使用率大于等于 90% 时发出严重告警,当内存使用率在 80%-90% 之间时发出重要告警。

连接数使用率过高
ShardingConnectionUsage:表示 Tair 集群中每一个数据分片的当前连接数占其最大连接数上限的百分比。当连接数使用率大于等于 90% 时发出严重告警,当连接数使用率在 80%-90% 之间时发出重要告警。

总结
通过将阿里云 Tair 集群版的原生监控数据集成到观测云平台,用户可以实现对 Tair 集群的实时性能监控、资源使用分析以及安全事件的可视化。观测云的高级分析和可视化功能,如实时仪表板、智能告警和根因分析,能够帮助用户快速定位问题、优化成本,并确保数据的高可用性和安全性。这种结合不仅提升了监控的效率和准确性,还通过集中管理的方式简化了运维流程,使用户能够更好地应对复杂的云环境挑战。