阿里云 OceanBase 可观测最佳实践

阿里云 OceanBase

OceanBase 数据库是蚂蚁集团不基于任何开源产品,完全自研的原生分布式关系数据库软件,在普通硬件上实现金融级高可用,具备卓越的水平扩展能力,全球首家通过 TPC-C 标准测试的分布式数据库,单集群规模超过 1500 节点。产品具有云原生、强一致性、高度兼容 MySQL 等特性,承担支付宝 100% 核心链路,在国内几十家银行、保险公司等金融客户的核心系统中稳定运行。

OceanBase 具有数据强一致、高可用、高性能、在线扩展、高度兼容 SQL 标准和主流关系型数据库、低成本等特点。OceanBase 至今已成功应用于支付宝全部核心业务:交易、支付、会员和账务等系统以及阿里巴巴淘宝(天猫)收藏夹和P4P 广告报表等业务。

OceanBase 监控是金融级分布式数据库的"生命体征仪",只有实时掌握集群、租户、节点、会话四层 5 秒级指标,才能在秒级发现副本漂移、SQL 抖动或节点故障,避免级联雪崩;它直接决定能否兑现"三地五中心"零数据丢失承诺,是业务连续性与合规审计的底线保障。

观测云

观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。

采集器配置

  1. 登录观测云控制台
  2. 点击【集成】菜单,选择【云账号管理】
  3. 点击【添加云账号】,选择【阿里云】,填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤
  4. 点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
  5. 点击【云账号管理】列表上可以看到已添加的云账号,点击相应的云账号,进入详情页
  6. 点击云账号详情页的【集成】按钮,在未安装列表下,找到阿里云 OceanBase,点击【安装】按钮,弹出安装界面安装即可。

关键指标

指标名 描述 单位
active_memstore_used 当前活跃 MemStore 已使用内存 字节
active_session 活跃会话数
all_session 总会话数
block_cache_hit_ratio Block Cache 命中率 %
block_cache_req_total Block Cache 总请求数
block_cache_size Block Cache 大小 字节
bloom_filter_cache_hit_ratio Bloom Filter Cache 命中率 %
bloom_filter_cache_req_total Bloom Filter Cache 总请求数
bloom_filter_cache_size Bloom Filter Cache 大小 字节
client_connections 客户端连接数
clog_cache_hit_ratio Clog Cache 命中率 %
clog_cache_req_total Clog Cache 总请求数
clog_cache_size Clog Cache 大小 字节
clog_trans_log_total_size 事务日志总大小 字节
cpu_percent CPU 使用率 %
io_byte IO 总字节数 字节
io_count IO 总次数
io_read 读 IO 总字节数 字节
io_read_byte 读 IO 字节数 字节
io_read_count 读 IO 次数
io_read_rt 读 IO 平均响应时间 毫秒
io_read_size 读 IO 平均大小 字节
io_rt IO 平均响应时间 毫秒
io_size IO 平均大小 字节
io_write 写 IO 总字节数 字节
io_write_byte 写 IO 字节数 字节
io_write_count 写 IO 次数
io_write_rt 写 IO 平均响应时间 毫秒
io_write_size 写 IO 平均大小 字节
load_1 1 分钟系统负载
location_cache_hit_ratio Location Cache 命中率 %
location_cache_req_total Location Cache 总请求数
major_freeze_trigger 触发 Major Freeze 次数
memory_buffers 缓冲区内存 字节
memory_free 空闲内存 字节
memory_percent 内存使用率 %
memstore_limit MemStore 上限 字节
memstore_percent MemStore 使用率 %
memstore_write_lock_fail_count MemStore 写锁失败次数
memstore_write_lock_succ_count MemStore 写锁成功次数
net_recv 网络接收字节数 字节
net_send 网络发送字节数 字节
net_throughput 网络吞吐量 字节/秒
ob_background_waitevent_count 后台等待事件数
ob_clog_disk_percent Clog 磁盘使用率 %
ob_clog_io Clog IO 次数
ob_clog_io_byte Clog IO 字节数 字节
ob_clog_io_time Clog IO 时间 毫秒
ob_clog_io_util Clog IO 利用率 %
ob_clog_ls_max_replayed_scn 最大回放 SCN
ob_cpu_percent OB CPU 使用率 %
ob_data_disk_percent 数据磁盘使用率 %
ob_data_disk_used_size 数据磁盘已用大小 字节
ob_data_io 数据 IO 次数
ob_data_io_byte 数据 IO 字节数 字节
ob_data_io_time 数据 IO 时间 毫秒
ob_data_io_util 数据 IO 利用率 %
ob_data_required_size 数据需求大小 字节
ob_host_real_time_iops 实时 IOPS 次/秒
ob_host_real_time_throughput 实时吞吐量 字节/秒
ob_no_idle_waiting_time 非空闲等待时间 毫秒
ob_process_exists OB 进程是否存在 布尔
ob_sql_event SQL 事件数
ob_sql_event_in_parse SQL 解析中事件数
ob_sql_event_in_pl_parse PL 解析中事件数
ob_sql_event_in_plan_cache Plan Cache 中事件数
ob_sql_event_in_px_execution 并行执行中事件数
ob_sql_event_in_sequence_load 序列加载中事件数
ob_sql_event_in_sql_execution SQL 执行中事件数
ob_sql_event_in_sql_optimize SQL 优化中事件数
ob_tenant_data_size 租户数据大小 字节
ob_tenant_disk_used_percentage 租户磁盘使用率 %
ob_tenant_log_disk_total_bytes 租户日志磁盘总大小 字节
ob_tenant_log_disk_used_bytes 租户日志磁盘已用大小 字节
ob_tenant_memory_percent 租户内存使用率 %
ob_tenant_server_data_size 租户在 Server 上的数据大小 字节
ob_tenant_server_required_size 租户在 Server 上的需求大小 字节
ob_waitevent_count 等待事件数
ob_worktime 工作时间 毫秒
opened_cursors_count 打开的游标数
plan_cache_hit_ratio Plan Cache 命中率 %
plan_cache_size Plan Cache 大小 字节
qps 每秒查询数 次/秒
qps_rt 查询平均响应时间 毫秒
request_dequeue_count 请求出队数
request_enqueue_count 请求入队数
request_queue_time 请求排队时间 毫秒
row_cache_hit_ratio Row Cache 命中率 %
row_cache_req_total Row Cache 总请求数
row_cache_size Row Cache 大小 字节
rpc_packet_in 入 RPC 包数
rpc_packet_in_rt 入 RPC 包平均响应时间 毫秒
rpc_packet_out 出 RPC 包数
rpc_packet_out_rt 出 RPC 包平均响应时间 毫秒
server_connections Server 连接数
slow_sql_count 慢 SQL 数
sql_all_count 总 SQL 数
sql_all_rt SQL 平均响应时间 毫秒
sql_all_rt_p_90 SQL 90分位响应时间 毫秒
sql_all_rt_p_95 SQL 95分位响应时间 毫秒
sql_all_rt_p_99 SQL 99分位响应时间 毫秒
sql_delete_count DELETE 语句数
sql_distributed_count 分布式 SQL 数
sql_insert_count INSERT 语句数
sql_insert_rt INSERT 平均响应时间 毫秒
sql_insert_rt_p_90 INSERT 90分位响应时间 毫秒
sql_insert_rt_p_95 INSERT 95分位响应时间 毫秒
sql_insert_rt_p_99 INSERT 99分位响应时间 毫秒
sql_local_count 本地 SQL 数
sql_other_count 其他 SQL 数
sql_other_rt 其他 SQL 平均响应时间 毫秒
sql_other_rt_p_90 其他 SQL 90分位响应时间 毫秒
sql_other_rt_p_95 其他 SQL 95分位响应时间 毫秒
sql_other_rt_p_99 其他 SQL 99分位响应时间 毫秒
sql_remote_count 远程 SQL 数
sql_replace_count REPLACE 语句数
sql_select_count SELECT 语句数
sql_select_rt SELECT 平均响应时间 毫秒
sql_select_rt_p_90 SELECT 90分位响应时间 毫秒
sql_select_rt_p_95 SELECT 95分位响应时间 毫秒
sql_select_rt_p_99 SELECT 99分位响应时间 毫秒
sql_update_count UPDATE 语句数
sql_update_rt UPDATE 平均响应时间 毫秒
system_event_commit_count 提交类系统事件数
system_event_commit_waites 提交类等待事件数
system_event_concurrency_count 并发类系统事件数
system_event_concurrency_waites 并发类等待事件数
system_event_configuration_count 配置类系统事件数
system_event_configuration_time_waites 配置类等待事件数
system_event_network_count 网络类系统事件数
system_event_network_waites 网络类等待事件数
system_event_other_count 其他系统事件数
system_event_other_time_waites 其他等待事件数
system_event_system_io_count 系统 IO 事件数
system_event_system_io_waites 系统 IO 等待事件数
system_event_user_io_count 用户 IO 事件数
system_event_user_io_waites 用户 IO 等待事件数
total_memstore_used MemStore 总使用量 字节
tps 每秒事务数 次/秒
trans_commit_log_count 事务提交日志数
trans_commit_log_sync_rt 事务提交日志同步耗时 毫秒
transaction_commit_count 事务提交数
transaction_commit_rt 事务提交耗时 毫秒
transaction_count 事务总数
transaction_multi_partition_count 跨分区事务数
transaction_partition_count 事务涉及分区数
transaction_rollback_count 事务回滚数
transaction_rollback_rt 事务回滚耗时 毫秒
transaction_rt 事务平均响应时间 毫秒
transaction_single_partition_count 单分区事务数
transaction_timeout_count 事务超时数
uptime 运行时长
wait_event_count 等待事件总数
wait_event_rt 等待事件平均耗时 毫秒

场景视图

登录观测云控制台,点击「场景」 -「新建仪表板」,输入 "", 选择 "阿里云 OceanBase",点击 "确定" 即可添加视图:

监控器(告警)

观测云内置了监控器模板,可以选择从模版创建监控器,并开启适合业务的监控器以及时通知相关成员关注问题,触发条件、频率等信息可以依据实际业务进行调整。

登录观测云控制台,点击「监控」 -「新建监控器」,输入 "OceanBase", 选择对应的监控器,点击 "确定" 即可添加。

总结

观测云集成阿里云 OceanBase,实时采集性能、租户、资源等指标与慢查询日志,提供统一可视化监控与告警,助力高效运维。

相关推荐
可观测性用观测云2 天前
Squid 可观测性最佳实践
监控
Github掘金计划8 天前
别再用 “臃肿监控” 了!这款轻量监控神器开源 3 月狂揽 1.3k Star!
前端·监控
Devin_Zhang13 天前
AWS EKS部署Prometheus和Grafana
监控·aws
AHUGEFATTY14 天前
离线安装NetData:高效监控服务器指南
监控·netdata
可观测性用观测云16 天前
FastDFS 可观测性最佳实践
监控