阿里云 RDS PostgreSQL 可观测最佳实践

阿里云 RDS PostgreSQL

阿里云RDS PostgreSQL 是阿里云提供的一种稳定、可靠、可扩展的关系型数据库服务,基于开源对象-关系型数据库 PostgreSQL 打造,兼容 SQL 标准,支持复杂查询、事务处理、JSON 数据类型以及强大的扩展能力(如 PostGIS、hstore 等)。RDS PostgreSQL 提供全自动的主备高可用架构,支持跨可用区部署,确保业务连续性。用户无需关心底层运维,系统自动完成备份恢复、监控告警、性能优化和版本升级等操作。

该服务支持多种实例规格,可根据业务负载灵活调整配置,实现资源弹性伸缩。同时,集成阿里云安全体系,提供网络隔离、数据加密、访问控制等多重安全防护,保障数据安全。RDS PostgreSQL 广泛应用于金融、电商、地理信息、数据分析等对数据一致性与复杂查询要求较高的场景。通过与 DTS、DBS 等阿里云产品无缝集成,还可实现数据迁移、灾备与读写分离,提升系统整体性能与可靠性。是企业构建现代化应用的理想数据库平台之一。

观测云

观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。

采集器配置

  1. 登录观测云控制台
  2. 点击【集成】菜单
  3. 点击【云账号管理】-【添加云账号】,选择【阿里云】
  4. 填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤
  5. 点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
  6. 点击【云账号管理】列表上可以看到已经添加的云账号,点击进入详情页
  7. 点击【集成】按钮,在未安装列表下找到阿里云 RDS PostgreSQL,点击【安装】按钮,弹出安装界面安装即可。

关键指标

指标名 描述 单位
PG_DBAge PG_数据库年龄 count
PG_InactiveSlots PG_非活跃复制槽数量 count
PG_MaxExecutingSQLTime PG_最慢SQL执行耗时 seconds
PG_MaxSlotWalDelay PG_最大复制槽延迟(MB) byte
PG_ReplayLatency PG_最慢Standby回放延迟(MB) byte
PG_SwellTime PG_最长事务执行耗时 seconds
active_connections_per_cpu PG_每CPU平均活跃连接数 count
conn_usgae PG_连接数使用率 %
cpu_usage PG_CPU使用率 %
five_seconds_executing_sqls PG_五秒慢SQL count
iops_usage PG_IOPS使用率 %
local_fs_inode_usage PG_INODE使用率 %
local_fs_size_usage PG_磁盘空间使用率 %
local_pg_wal_dir_size PG_WAL文件大小 MB
mem_usage PG_内存使用率 %
one_second_executing_sqls PG_一秒慢SQL count
three_seconds_executing_sqls PG_三秒慢SQL count

场景视图

登录观测云控制台,点击「场景」 -「新建仪表板」,输入 阿里云 RDS PostgreSQL, 选择 "阿里云 RDS PostgreSQL 监控视图",点击 "确定" 即可添加视图。

监控器

观测云内置了监控器模板,可以选择从模版创建监控器,并开启适合业务的监控器以及时通知相关成员关注问题,触发条件、频率等信息可以依据实际业务进行调整。

登录观测云控制台,点击「监控」 -「官方模板库」,输入 "阿里云 RDS PostgreSQL", 选择对应的监控器,点击 "确定" 即可添加。

阿里云 RDS PostgreSQL 内存告警

该告警配置针对阿里云 PostgreSQL 数据库的内存使用率进行监控,检测频率为每分钟一次,检测区间为最近 5 分钟。当内存使用平均值持续高于 90% 时触发严重告警,介于 80% 至 90% 时触发重现告警,并支持连续触发判断机制,确保及时感知数据库资源异常。

阿里云 RDS PostgreSQL CPU告警

该告警配置针对阿里云 PostgreSQL 数据库的 CPU 使用率进行监控,检测频率为每分钟 1 次,检测区间为最近 5 分钟。当 CPU 使用平均值持续高于 90% 时触发严重告警,介于 80% 至 90% 时触发重现告警,并支持连续触发判断机制,确保及时感知数据库资源异常。

阿里云 RDS PostgreSQL 告警

该告警配置针对阿里云 PostgreSQL 数据库的磁盘使用率进行监控,检测频率为每分钟一次,检测区间为最近 5 分钟。当内存使用平均值持续高于 90% 时触发严重告警,介于 80% 至 90% 时触发重现告警,并支持连续触发判断机制,确保及时感知数据库资源异常。

总结

观测云通过一站式采集阿里云 RDS PostgreSQL 的关键指标(如 CPU、内存、连接数等),结合智能告警规则(如多级阈值、连续触发判断),实现对数据库性能的分钟级监控与异常快速定位。该实践可帮助企业提升数据库稳定性,降低运维成本,增强业务连续性,实现云上资源的精细化管控与主动运维。

相关推荐
馨谙2 小时前
SELinux 文件上下文管理详解:从基础到实战
jvm·数据库·oracle
ClouGence2 小时前
百草味数据架构升级实践:打造 Always Ready 的企业级数据平台
大数据·数据库·数据分析
川石课堂软件测试3 小时前
Python | 高阶函数基本应用及Decorator装饰器
android·开发语言·数据库·python·功能测试·mysql·单元测试
.又是新的一天.3 小时前
08-Jmeter数据驱动、数据库的操作、命令行执行方式
数据库·jmeter
LilySesy4 小时前
ABAP+如果在join的时候需要表1的字段某几位等于表2的字段的某几位,需要怎么做?
服务器·前端·数据库·sap·abap·alv
口_天_光健4 小时前
制造企业的数据目录编写
大数据·数据库·数据仓库·数据分析
mpHH4 小时前
postgresql pg_upgrade源码阅读--doing
数据库·postgresql
苦学编程的谢4 小时前
Redis_6_String
数据库·redis·缓存
秋已杰爱4 小时前
技术准备十:etcd
数据库·etcd