Starrocks 数据均衡DiskAndTabletLoadReBalancer的实现

背景

最近在研究了一下 Starrocks的tablet的Rebalance的能力,这里进行记录一下

本文基于 StarRocks 3.3.5

结论

数据的rebalance 主要以两种模式来进行:

  1. 按照磁盘的使用率进行移动,如果每个BE的磁盘使用率不足tablet_sched_balance_load_disk_safe_threshold(默认是50%),
    或者 BE间磁盘的最大使用率和最小使用率相差不超过tablet_sched_balance_load_score_threshold(默认10%),就认为不需要进行数据均衡
  2. 以tablet的副本数量进行移动,不断把副本从副本数多的BE节点 转移到 副本数少的节点上
  3. 以BE内的磁盘使用率为基准,按照高磁盘使用率往低磁盘使用率的原则进行数据迁移
  4. 以BE内的各个路径的tablets副本数据为基准 ,按照路径中副本数高的往副本数低的原则进行数据秦阿姨

其中里面设计到的移动都是以 tablet Replica(副本)为单位进行移动的,

且统计信息的来源是来自SystemInfoService,对于每个磁盘类型(HDD,SSD)都会做Rebalance操作

分析

统计信息的来源

ClusterLoadStatistic的统计信息,这个是来自于SystemInfoService,而最终的信息是来源于 BE和 FE进行交互的FrontendServiceImpl,BE会上报给FE信息,这些信息

在FE则会调用 ReportHandler的 exec方法,从而更新到 SystemInfoService中。

复制代码
 @Override
 protected void exec() {
     if (tasks != null) {
         ReportHandler.taskReport(beId, tasks);
     }
     if (disks != null) {
         ReportHandler.diskReport(beId, disks);
     }
     if (tablets != null) {
         ReportHandler.tabletReport(beId, tablets, reportVersion);
     }
     if (activeWorkGroups != null) {
         ReportHandler.workgroupReport(beId, activeWorkGroups);
     }
     if (resourceUsage != null) {
         ReportHandler.resourceUsageReport(beId, resourceUsage);
     }
     if (dataCacheMetrics != null) {
         ReportHandler.datacacheMetricsReport(beId, dataCacheMetrics);
     }
 }

tablet调度数据流

其中最主要的数据流如下:

复制代码
TabletScheduler.runAfterCatalogReady
      ||
      \/
TabletScheduler.schedulePendingTablets //一次性调度队列中剩余的所有的Rebalance任务
      ||
      \/
TabletScheduler.handleRunningTablets // 取消超时的Rebalance任务,这个超时时间是根据 TabletSchedCtx.getApproximateTimeoutMs 方法获取的
      ||
      \/
TabletScheduler.selectTabletsForBalance
      ||
      \/
Rebalancer.selectAlternativeTablets => selectAlternativeTabletsForCluster 
                                                    ||
                                                    \/
                                             balanceClusterDisk 
                                                    ||
                                                    \/
                                             balanceClusterTablet
                                                    ||
                                                    \/
                                             balanceBackendDisk
                                                    ||
                                                    \/
                                             balanceBackendTablet
                                              
     ||
     \/
handleForceCleanSchedQ    // 如果有用户调用了`CLEAN TABLET SCHEDULER QUEUE`命令,则会强制清除包括正在运行的所有的数据Rebalance任务
     ||
     \/
stat.counterTabletScheduleRound.incrementAndGet() // 记录tablet schedule调度的次数

其中 balanceClusterDisk balanceClusterTablet balanceBackendDisk balanceBackendTablet 分别对应上述的1 2 3 4 四点。

相关推荐
杨云龙UP26 分钟前
SQL Server定时自动备份配置:使用SSMS维护计划向导配置数据库每日自动备份_20260101
运维·服务器·数据库·sql·sqlserver·桌面
麦聪聊数据1 小时前
解构“逻辑数据仓库 (LDW)”与数据虚拟化
数据库·数据仓库·sql
小北方城市网1 小时前
第 3 课:前后端全栈联动核心 —— 接口规范 + AJAX + 跨域解决(打通前后端壁垒)
java·大数据·网络·python
数智顾问1 小时前
(111页PPT)华为业务变革框架及战略级项目管理(附下载方式)
大数据·运维·华为
微光闪现2 小时前
国际航班动态提醒与延误预测优选平台指南
大数据·人工智能·算法
week_泽2 小时前
github_upload,上传项目
大数据·elasticsearch·github
TDengine (老段)3 小时前
TDengine 生态系统连接指南
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
CNRio3 小时前
Day 35:Git的分支管理:理解分支的创建、切换与合并
大数据·git·elasticsearch
小鸡脚来咯3 小时前
Hive SQL与SQL不同处
hive·hadoop·sql
kylezhao20193 小时前
WinForm/WPF界面开发(常用控件、布局设计、事件处理)
大数据·hadoop·wpf