阿里云 OceanBase
OceanBase 数据库是蚂蚁集团不基于任何开源产品,完全自研的原生分布式关系数据库软件,在普通硬件上实现金融级高可用,具备卓越的水平扩展能力,全球首家通过 TPC-C 标准测试的分布式数据库,单集群规模超过 1500 节点。产品具有云原生、强一致性、高度兼容 MySQL 等特性,承担支付宝 100% 核心链路,在国内几十家银行、保险公司等金融客户的核心系统中稳定运行。
OceanBase 具有数据强一致、高可用、高性能、在线扩展、高度兼容 SQL 标准和主流关系型数据库、低成本等特点。OceanBase 至今已成功应用于支付宝全部核心业务:交易、支付、会员和账务等系统以及阿里巴巴淘宝(天猫)收藏夹和P4P 广告报表等业务。
OceanBase 监控是金融级分布式数据库的"生命体征仪",只有实时掌握集群、租户、节点、会话四层 5 秒级指标,才能在秒级发现副本漂移、SQL 抖动或节点故障,避免级联雪崩;它直接决定能否兑现"三地五中心"零数据丢失承诺,是业务连续性与合规审计的底线保障。
观测云
观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。
采集器配置
- 登录观测云控制台
- 点击【集成】菜单,选择【云账号管理】
- 点击【添加云账号】,选择【阿里云】,填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤
- 点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
- 点击【云账号管理】列表上可以看到已添加的云账号,点击相应的云账号,进入详情页
- 点击云账号详情页的【集成】按钮,在未安装列表下,找到阿里云 OceanBase,点击【安装】按钮,弹出安装界面安装即可。
关键指标
| 指标名 | 描述 | 单位 | 
|---|---|---|
| active_memstore_used | 当前活跃 MemStore 已使用内存 | 字节 | 
| active_session | 活跃会话数 | 个 | 
| all_session | 总会话数 | 个 | 
| block_cache_hit_ratio | Block Cache 命中率 | % | 
| block_cache_req_total | Block Cache 总请求数 | 次 | 
| block_cache_size | Block Cache 大小 | 字节 | 
| bloom_filter_cache_hit_ratio | Bloom Filter Cache 命中率 | % | 
| bloom_filter_cache_req_total | Bloom Filter Cache 总请求数 | 次 | 
| bloom_filter_cache_size | Bloom Filter Cache 大小 | 字节 | 
| client_connections | 客户端连接数 | 个 | 
| clog_cache_hit_ratio | Clog Cache 命中率 | % | 
| clog_cache_req_total | Clog Cache 总请求数 | 次 | 
| clog_cache_size | Clog Cache 大小 | 字节 | 
| clog_trans_log_total_size | 事务日志总大小 | 字节 | 
| cpu_percent | CPU 使用率 | % | 
| io_byte | IO 总字节数 | 字节 | 
| io_count | IO 总次数 | 次 | 
| io_read | 读 IO 总字节数 | 字节 | 
| io_read_byte | 读 IO 字节数 | 字节 | 
| io_read_count | 读 IO 次数 | 次 | 
| io_read_rt | 读 IO 平均响应时间 | 毫秒 | 
| io_read_size | 读 IO 平均大小 | 字节 | 
| io_rt | IO 平均响应时间 | 毫秒 | 
| io_size | IO 平均大小 | 字节 | 
| io_write | 写 IO 总字节数 | 字节 | 
| io_write_byte | 写 IO 字节数 | 字节 | 
| io_write_count | 写 IO 次数 | 次 | 
| io_write_rt | 写 IO 平均响应时间 | 毫秒 | 
| io_write_size | 写 IO 平均大小 | 字节 | 
| load_1 | 1 分钟系统负载 | 无 | 
| location_cache_hit_ratio | Location Cache 命中率 | % | 
| location_cache_req_total | Location Cache 总请求数 | 次 | 
| major_freeze_trigger | 触发 Major Freeze 次数 | 次 | 
| memory_buffers | 缓冲区内存 | 字节 | 
| memory_free | 空闲内存 | 字节 | 
| memory_percent | 内存使用率 | % | 
| memstore_limit | MemStore 上限 | 字节 | 
| memstore_percent | MemStore 使用率 | % | 
| memstore_write_lock_fail_count | MemStore 写锁失败次数 | 次 | 
| memstore_write_lock_succ_count | MemStore 写锁成功次数 | 次 | 
| net_recv | 网络接收字节数 | 字节 | 
| net_send | 网络发送字节数 | 字节 | 
| net_throughput | 网络吞吐量 | 字节/秒 | 
| ob_background_waitevent_count | 后台等待事件数 | 次 | 
| ob_clog_disk_percent | Clog 磁盘使用率 | % | 
| ob_clog_io | Clog IO 次数 | 次 | 
| ob_clog_io_byte | Clog IO 字节数 | 字节 | 
| ob_clog_io_time | Clog IO 时间 | 毫秒 | 
| ob_clog_io_util | Clog IO 利用率 | % | 
| ob_clog_ls_max_replayed_scn | 最大回放 SCN | 无 | 
| ob_cpu_percent | OB CPU 使用率 | % | 
| ob_data_disk_percent | 数据磁盘使用率 | % | 
| ob_data_disk_used_size | 数据磁盘已用大小 | 字节 | 
| ob_data_io | 数据 IO 次数 | 次 | 
| ob_data_io_byte | 数据 IO 字节数 | 字节 | 
| ob_data_io_time | 数据 IO 时间 | 毫秒 | 
| ob_data_io_util | 数据 IO 利用率 | % | 
| ob_data_required_size | 数据需求大小 | 字节 | 
| ob_host_real_time_iops | 实时 IOPS | 次/秒 | 
| ob_host_real_time_throughput | 实时吞吐量 | 字节/秒 | 
| ob_no_idle_waiting_time | 非空闲等待时间 | 毫秒 | 
| ob_process_exists | OB 进程是否存在 | 布尔 | 
| ob_sql_event | SQL 事件数 | 次 | 
| ob_sql_event_in_parse | SQL 解析中事件数 | 次 | 
| ob_sql_event_in_pl_parse | PL 解析中事件数 | 次 | 
| ob_sql_event_in_plan_cache | Plan Cache 中事件数 | 次 | 
| ob_sql_event_in_px_execution | 并行执行中事件数 | 次 | 
| ob_sql_event_in_sequence_load | 序列加载中事件数 | 次 | 
| ob_sql_event_in_sql_execution | SQL 执行中事件数 | 次 | 
| ob_sql_event_in_sql_optimize | SQL 优化中事件数 | 次 | 
| ob_tenant_data_size | 租户数据大小 | 字节 | 
| ob_tenant_disk_used_percentage | 租户磁盘使用率 | % | 
| ob_tenant_log_disk_total_bytes | 租户日志磁盘总大小 | 字节 | 
| ob_tenant_log_disk_used_bytes | 租户日志磁盘已用大小 | 字节 | 
| ob_tenant_memory_percent | 租户内存使用率 | % | 
| ob_tenant_server_data_size | 租户在 Server 上的数据大小 | 字节 | 
| ob_tenant_server_required_size | 租户在 Server 上的需求大小 | 字节 | 
| ob_waitevent_count | 等待事件数 | 次 | 
| ob_worktime | 工作时间 | 毫秒 | 
| opened_cursors_count | 打开的游标数 | 个 | 
| plan_cache_hit_ratio | Plan Cache 命中率 | % | 
| plan_cache_size | Plan Cache 大小 | 字节 | 
| qps | 每秒查询数 | 次/秒 | 
| qps_rt | 查询平均响应时间 | 毫秒 | 
| request_dequeue_count | 请求出队数 | 次 | 
| request_enqueue_count | 请求入队数 | 次 | 
| request_queue_time | 请求排队时间 | 毫秒 | 
| row_cache_hit_ratio | Row Cache 命中率 | % | 
| row_cache_req_total | Row Cache 总请求数 | 次 | 
| row_cache_size | Row Cache 大小 | 字节 | 
| rpc_packet_in | 入 RPC 包数 | 包 | 
| rpc_packet_in_rt | 入 RPC 包平均响应时间 | 毫秒 | 
| rpc_packet_out | 出 RPC 包数 | 包 | 
| rpc_packet_out_rt | 出 RPC 包平均响应时间 | 毫秒 | 
| server_connections | Server 连接数 | 个 | 
| slow_sql_count | 慢 SQL 数 | 条 | 
| sql_all_count | 总 SQL 数 | 条 | 
| sql_all_rt | SQL 平均响应时间 | 毫秒 | 
| sql_all_rt_p_90 | SQL 90分位响应时间 | 毫秒 | 
| sql_all_rt_p_95 | SQL 95分位响应时间 | 毫秒 | 
| sql_all_rt_p_99 | SQL 99分位响应时间 | 毫秒 | 
| sql_delete_count | DELETE 语句数 | 条 | 
| sql_distributed_count | 分布式 SQL 数 | 条 | 
| sql_insert_count | INSERT 语句数 | 条 | 
| sql_insert_rt | INSERT 平均响应时间 | 毫秒 | 
| sql_insert_rt_p_90 | INSERT 90分位响应时间 | 毫秒 | 
| sql_insert_rt_p_95 | INSERT 95分位响应时间 | 毫秒 | 
| sql_insert_rt_p_99 | INSERT 99分位响应时间 | 毫秒 | 
| sql_local_count | 本地 SQL 数 | 条 | 
| sql_other_count | 其他 SQL 数 | 条 | 
| sql_other_rt | 其他 SQL 平均响应时间 | 毫秒 | 
| sql_other_rt_p_90 | 其他 SQL 90分位响应时间 | 毫秒 | 
| sql_other_rt_p_95 | 其他 SQL 95分位响应时间 | 毫秒 | 
| sql_other_rt_p_99 | 其他 SQL 99分位响应时间 | 毫秒 | 
| sql_remote_count | 远程 SQL 数 | 条 | 
| sql_replace_count | REPLACE 语句数 | 条 | 
| sql_select_count | SELECT 语句数 | 条 | 
| sql_select_rt | SELECT 平均响应时间 | 毫秒 | 
| sql_select_rt_p_90 | SELECT 90分位响应时间 | 毫秒 | 
| sql_select_rt_p_95 | SELECT 95分位响应时间 | 毫秒 | 
| sql_select_rt_p_99 | SELECT 99分位响应时间 | 毫秒 | 
| sql_update_count | UPDATE 语句数 | 条 | 
| sql_update_rt | UPDATE 平均响应时间 | 毫秒 | 
| system_event_commit_count | 提交类系统事件数 | 次 | 
| system_event_commit_waites | 提交类等待事件数 | 次 | 
| system_event_concurrency_count | 并发类系统事件数 | 次 | 
| system_event_concurrency_waites | 并发类等待事件数 | 次 | 
| system_event_configuration_count | 配置类系统事件数 | 次 | 
| system_event_configuration_time_waites | 配置类等待事件数 | 次 | 
| system_event_network_count | 网络类系统事件数 | 次 | 
| system_event_network_waites | 网络类等待事件数 | 次 | 
| system_event_other_count | 其他系统事件数 | 次 | 
| system_event_other_time_waites | 其他等待事件数 | 次 | 
| system_event_system_io_count | 系统 IO 事件数 | 次 | 
| system_event_system_io_waites | 系统 IO 等待事件数 | 次 | 
| system_event_user_io_count | 用户 IO 事件数 | 次 | 
| system_event_user_io_waites | 用户 IO 等待事件数 | 次 | 
| total_memstore_used | MemStore 总使用量 | 字节 | 
| tps | 每秒事务数 | 次/秒 | 
| trans_commit_log_count | 事务提交日志数 | 次 | 
| trans_commit_log_sync_rt | 事务提交日志同步耗时 | 毫秒 | 
| transaction_commit_count | 事务提交数 | 次 | 
| transaction_commit_rt | 事务提交耗时 | 毫秒 | 
| transaction_count | 事务总数 | 次 | 
| transaction_multi_partition_count | 跨分区事务数 | 次 | 
| transaction_partition_count | 事务涉及分区数 | 个 | 
| transaction_rollback_count | 事务回滚数 | 次 | 
| transaction_rollback_rt | 事务回滚耗时 | 毫秒 | 
| transaction_rt | 事务平均响应时间 | 毫秒 | 
| transaction_single_partition_count | 单分区事务数 | 次 | 
| transaction_timeout_count | 事务超时数 | 次 | 
| uptime | 运行时长 | 秒 | 
| wait_event_count | 等待事件总数 | 次 | 
| wait_event_rt | 等待事件平均耗时 | 毫秒 | 
场景视图
登录观测云控制台,点击「场景」 -「新建仪表板」,输入 "", 选择 "阿里云 OceanBase",点击 "确定" 即可添加视图:

监控器(告警)
观测云内置了监控器模板,可以选择从模版创建监控器,并开启适合业务的监控器以及时通知相关成员关注问题,触发条件、频率等信息可以依据实际业务进行调整。
登录观测云控制台,点击「监控」 -「新建监控器」,输入 "OceanBase", 选择对应的监控器,点击 "确定" 即可添加。

总结
观测云集成阿里云 OceanBase,实时采集性能、租户、资源等指标与慢查询日志,提供统一可视化监控与告警,助力高效运维。