阿里云 OceanBase 可观测最佳实践

阿里云 OceanBase

OceanBase 数据库是蚂蚁集团不基于任何开源产品,完全自研的原生分布式关系数据库软件,在普通硬件上实现金融级高可用,具备卓越的水平扩展能力,全球首家通过 TPC-C 标准测试的分布式数据库,单集群规模超过 1500 节点。产品具有云原生、强一致性、高度兼容 MySQL 等特性,承担支付宝 100% 核心链路,在国内几十家银行、保险公司等金融客户的核心系统中稳定运行。

OceanBase 具有数据强一致、高可用、高性能、在线扩展、高度兼容 SQL 标准和主流关系型数据库、低成本等特点。OceanBase 至今已成功应用于支付宝全部核心业务:交易、支付、会员和账务等系统以及阿里巴巴淘宝(天猫)收藏夹和P4P 广告报表等业务。

OceanBase 监控是金融级分布式数据库的"生命体征仪",只有实时掌握集群、租户、节点、会话四层 5 秒级指标,才能在秒级发现副本漂移、SQL 抖动或节点故障,避免级联雪崩;它直接决定能否兑现"三地五中心"零数据丢失承诺,是业务连续性与合规审计的底线保障。

观测云

观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。

采集器配置

  1. 登录观测云控制台
  2. 点击【集成】菜单,选择【云账号管理】
  3. 点击【添加云账号】,选择【阿里云】,填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤
  4. 点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
  5. 点击【云账号管理】列表上可以看到已添加的云账号,点击相应的云账号,进入详情页
  6. 点击云账号详情页的【集成】按钮,在未安装列表下,找到阿里云 OceanBase,点击【安装】按钮,弹出安装界面安装即可。

关键指标

指标名 描述 单位
active_memstore_used 当前活跃 MemStore 已使用内存 字节
active_session 活跃会话数
all_session 总会话数
block_cache_hit_ratio Block Cache 命中率 %
block_cache_req_total Block Cache 总请求数
block_cache_size Block Cache 大小 字节
bloom_filter_cache_hit_ratio Bloom Filter Cache 命中率 %
bloom_filter_cache_req_total Bloom Filter Cache 总请求数
bloom_filter_cache_size Bloom Filter Cache 大小 字节
client_connections 客户端连接数
clog_cache_hit_ratio Clog Cache 命中率 %
clog_cache_req_total Clog Cache 总请求数
clog_cache_size Clog Cache 大小 字节
clog_trans_log_total_size 事务日志总大小 字节
cpu_percent CPU 使用率 %
io_byte IO 总字节数 字节
io_count IO 总次数
io_read 读 IO 总字节数 字节
io_read_byte 读 IO 字节数 字节
io_read_count 读 IO 次数
io_read_rt 读 IO 平均响应时间 毫秒
io_read_size 读 IO 平均大小 字节
io_rt IO 平均响应时间 毫秒
io_size IO 平均大小 字节
io_write 写 IO 总字节数 字节
io_write_byte 写 IO 字节数 字节
io_write_count 写 IO 次数
io_write_rt 写 IO 平均响应时间 毫秒
io_write_size 写 IO 平均大小 字节
load_1 1 分钟系统负载
location_cache_hit_ratio Location Cache 命中率 %
location_cache_req_total Location Cache 总请求数
major_freeze_trigger 触发 Major Freeze 次数
memory_buffers 缓冲区内存 字节
memory_free 空闲内存 字节
memory_percent 内存使用率 %
memstore_limit MemStore 上限 字节
memstore_percent MemStore 使用率 %
memstore_write_lock_fail_count MemStore 写锁失败次数
memstore_write_lock_succ_count MemStore 写锁成功次数
net_recv 网络接收字节数 字节
net_send 网络发送字节数 字节
net_throughput 网络吞吐量 字节/秒
ob_background_waitevent_count 后台等待事件数
ob_clog_disk_percent Clog 磁盘使用率 %
ob_clog_io Clog IO 次数
ob_clog_io_byte Clog IO 字节数 字节
ob_clog_io_time Clog IO 时间 毫秒
ob_clog_io_util Clog IO 利用率 %
ob_clog_ls_max_replayed_scn 最大回放 SCN
ob_cpu_percent OB CPU 使用率 %
ob_data_disk_percent 数据磁盘使用率 %
ob_data_disk_used_size 数据磁盘已用大小 字节
ob_data_io 数据 IO 次数
ob_data_io_byte 数据 IO 字节数 字节
ob_data_io_time 数据 IO 时间 毫秒
ob_data_io_util 数据 IO 利用率 %
ob_data_required_size 数据需求大小 字节
ob_host_real_time_iops 实时 IOPS 次/秒
ob_host_real_time_throughput 实时吞吐量 字节/秒
ob_no_idle_waiting_time 非空闲等待时间 毫秒
ob_process_exists OB 进程是否存在 布尔
ob_sql_event SQL 事件数
ob_sql_event_in_parse SQL 解析中事件数
ob_sql_event_in_pl_parse PL 解析中事件数
ob_sql_event_in_plan_cache Plan Cache 中事件数
ob_sql_event_in_px_execution 并行执行中事件数
ob_sql_event_in_sequence_load 序列加载中事件数
ob_sql_event_in_sql_execution SQL 执行中事件数
ob_sql_event_in_sql_optimize SQL 优化中事件数
ob_tenant_data_size 租户数据大小 字节
ob_tenant_disk_used_percentage 租户磁盘使用率 %
ob_tenant_log_disk_total_bytes 租户日志磁盘总大小 字节
ob_tenant_log_disk_used_bytes 租户日志磁盘已用大小 字节
ob_tenant_memory_percent 租户内存使用率 %
ob_tenant_server_data_size 租户在 Server 上的数据大小 字节
ob_tenant_server_required_size 租户在 Server 上的需求大小 字节
ob_waitevent_count 等待事件数
ob_worktime 工作时间 毫秒
opened_cursors_count 打开的游标数
plan_cache_hit_ratio Plan Cache 命中率 %
plan_cache_size Plan Cache 大小 字节
qps 每秒查询数 次/秒
qps_rt 查询平均响应时间 毫秒
request_dequeue_count 请求出队数
request_enqueue_count 请求入队数
request_queue_time 请求排队时间 毫秒
row_cache_hit_ratio Row Cache 命中率 %
row_cache_req_total Row Cache 总请求数
row_cache_size Row Cache 大小 字节
rpc_packet_in 入 RPC 包数
rpc_packet_in_rt 入 RPC 包平均响应时间 毫秒
rpc_packet_out 出 RPC 包数
rpc_packet_out_rt 出 RPC 包平均响应时间 毫秒
server_connections Server 连接数
slow_sql_count 慢 SQL 数
sql_all_count 总 SQL 数
sql_all_rt SQL 平均响应时间 毫秒
sql_all_rt_p_90 SQL 90分位响应时间 毫秒
sql_all_rt_p_95 SQL 95分位响应时间 毫秒
sql_all_rt_p_99 SQL 99分位响应时间 毫秒
sql_delete_count DELETE 语句数
sql_distributed_count 分布式 SQL 数
sql_insert_count INSERT 语句数
sql_insert_rt INSERT 平均响应时间 毫秒
sql_insert_rt_p_90 INSERT 90分位响应时间 毫秒
sql_insert_rt_p_95 INSERT 95分位响应时间 毫秒
sql_insert_rt_p_99 INSERT 99分位响应时间 毫秒
sql_local_count 本地 SQL 数
sql_other_count 其他 SQL 数
sql_other_rt 其他 SQL 平均响应时间 毫秒
sql_other_rt_p_90 其他 SQL 90分位响应时间 毫秒
sql_other_rt_p_95 其他 SQL 95分位响应时间 毫秒
sql_other_rt_p_99 其他 SQL 99分位响应时间 毫秒
sql_remote_count 远程 SQL 数
sql_replace_count REPLACE 语句数
sql_select_count SELECT 语句数
sql_select_rt SELECT 平均响应时间 毫秒
sql_select_rt_p_90 SELECT 90分位响应时间 毫秒
sql_select_rt_p_95 SELECT 95分位响应时间 毫秒
sql_select_rt_p_99 SELECT 99分位响应时间 毫秒
sql_update_count UPDATE 语句数
sql_update_rt UPDATE 平均响应时间 毫秒
system_event_commit_count 提交类系统事件数
system_event_commit_waites 提交类等待事件数
system_event_concurrency_count 并发类系统事件数
system_event_concurrency_waites 并发类等待事件数
system_event_configuration_count 配置类系统事件数
system_event_configuration_time_waites 配置类等待事件数
system_event_network_count 网络类系统事件数
system_event_network_waites 网络类等待事件数
system_event_other_count 其他系统事件数
system_event_other_time_waites 其他等待事件数
system_event_system_io_count 系统 IO 事件数
system_event_system_io_waites 系统 IO 等待事件数
system_event_user_io_count 用户 IO 事件数
system_event_user_io_waites 用户 IO 等待事件数
total_memstore_used MemStore 总使用量 字节
tps 每秒事务数 次/秒
trans_commit_log_count 事务提交日志数
trans_commit_log_sync_rt 事务提交日志同步耗时 毫秒
transaction_commit_count 事务提交数
transaction_commit_rt 事务提交耗时 毫秒
transaction_count 事务总数
transaction_multi_partition_count 跨分区事务数
transaction_partition_count 事务涉及分区数
transaction_rollback_count 事务回滚数
transaction_rollback_rt 事务回滚耗时 毫秒
transaction_rt 事务平均响应时间 毫秒
transaction_single_partition_count 单分区事务数
transaction_timeout_count 事务超时数
uptime 运行时长
wait_event_count 等待事件总数
wait_event_rt 等待事件平均耗时 毫秒

场景视图

登录观测云控制台,点击「场景」 -「新建仪表板」,输入 "", 选择 "阿里云 OceanBase",点击 "确定" 即可添加视图:

监控器(告警)

观测云内置了监控器模板,可以选择从模版创建监控器,并开启适合业务的监控器以及时通知相关成员关注问题,触发条件、频率等信息可以依据实际业务进行调整。

登录观测云控制台,点击「监控」 -「新建监控器」,输入 "OceanBase", 选择对应的监控器,点击 "确定" 即可添加。

总结

观测云集成阿里云 OceanBase,实时采集性能、租户、资源等指标与慢查询日志,提供统一可视化监控与告警,助力高效运维。

相关推荐
翼龙云_cloud15 分钟前
阿里云渠道商:阿里云弹性伸缩有哪几种
服务器·阿里云·云计算
孤岛悬城1 小时前
57 Rancher管理平台
云计算·k8s
新钛云服1 小时前
Grafana Polystat面板与腾讯云可观测平台的深度融合实践
大数据·云计算·腾讯云·grafana
忍冬行者3 小时前
k8s的etcd的一键备份和故障恢复
docker·云原生·容器·kubernetes·云计算
戴西软件3 小时前
戴西发布 DLM许可证加密防护软件V4.2让工业软件授权迈入并发调度与精细治理时代
运维·服务器·网络·数据库·人工智能·安全·云计算
咕噜企业分发小米21 小时前
阿里云AI教育产品如何助力企业提升客户转化率?
人工智能·阿里云·云计算
冷存储观察1 天前
Gigaom雷达报告反映的非结构化数据管理技术应用趋势
大数据·人工智能·云计算·数据安全·企业数据管理·数据基础设施
weisian1511 天前
入门篇--知名企业-20-阿里巴巴-8--阿里云PAI:AI开发的“全自动装配线”
人工智能·阿里云·云计算·pai
chao_6666661 天前
【MCP】Claude Code for VS Code 配置阿里云 MCP 工具教程
阿里云·云计算·claude·mcp
未来之窗软件服务1 天前
服务器运维(二十二) 服务器安全探针封装—东方仙盟练气期
运维·云计算·仙盟创梦ide·东方仙盟·服务器探针