HBase 创建不分裂的表 ( 禁止 Table Split )

注意:由于 HBase 版本众多,配置表的语法在不同版本上会有差异,本文介绍的配置方法是在 1.4.9 版本上测试的,使用 HBase 2.0+ 的版本需要核实并修改相关配置方法!

有时候,出于特殊需要,我们希望对 HBase 表进行预分区后,禁止表再自动 Split,具体做法就是设置表的 SPLIT_POLICY 配置项,将分裂策略设置为 DisabledRegionSplitPolicy。以下是一个示例,建表时进行了预分区,设置了 510 个 Region,并显式地配置切分策略为 DisabledRegionSplitPolicy

bash 复制代码
TABLE_NAME="usertable"
REGIN_SPLITS=510
cat << EOF | sudo -u hbase hbase shell
create '${TABLE_NAME}', 'cf', {METADATA => {'SPLIT_POLICY' => 'org.apache.hadoop.hbase.regionserver.DisabledRegionSplitPolicy'}}, {SPLITS => (2..${REGIN_SPLITS}).map {|i| "user#{1000+(i-1)*(9999-1000)/${REGIN_SPLITS}}"}}
describe '${TABLE_NAME}'
EOF

要特别注意的是:在旧的 HBase 版本上,例如本文使用的 1.4.9,必须配置为 METADATA => xxx ,而不是使用 CONFIGURATION => xxx,虽然使用后者并不报错,但修改是无效的!

还有一个特别重要问题,测试表明:在 EMR 5.23.0 版本上,修改 hbase.regionserver.region.split.policyorg.apache.hadoop.hbase.regionserver.DisabledRegionSplitPolicy 对单表无效!虽然这很诡异,但测试下来确实无效!似乎在表级别上配置才有效。

总得来说,如果能在表级别上单独配置属性是最好的,这样产不会影响到其他表。


以下是其他相关的配置和说明:

HBase 默认的切分策略是 IncreasingToUpperBoundRegionSplitPolicy,该策略在 Region 小于 10 GB 时有一套自己的切分规则,超过 10 GB 后才会遵循 ConstantSizeRegionSplitPolicy

hbase.hregion.max.filesize 设为一个极大值并把 hbase.regionserver.region.split.policy 设为 org.apache.hadoop.hbase.regionserver.ConstantSizeRegionSplitPolicy 同样可以实现禁止 split 的目的,但是,和上面提到的情况一样,在 EMR 5.23.0 版本上,修改这两项配置对单表无效,同样只能修改表级别的属性。

相关推荐
yumgpkpm1 天前
腾讯云TBDS与CDH迁移常见问题有哪些?建议由CDH迁移到CMP 7.13 平台(类Cloudera CDP,如华为鲲鹏 ARM 版)
hive·hadoop·zookeeper·flink·spark·kafka·hbase
yumgpkpm2 天前
数据可视化AI、BI工具,开源适配 Cloudera CMP 7.3(或类 CDP 的 CMP 7.13 平台,如华为鲲鹏 ARM 版)值得推荐?
人工智能·hive·hadoop·信息可视化·kafka·开源·hbase
1***s6323 天前
MySQLGraphQL案例
django·hbase·图形洹染
冉佳驹3 天前
C++ ——— 基本特性解析
c++·引用·内联函数·范围for·命名空间·缺省参数·auto
2501_941147715 天前
人工智能与自动化:未来工作环境的颠覆性力量
hbase
阳爱铭8 天前
ClickHouse 中至关重要的两类复制表引擎——ReplicatedMergeTree和 ReplicatedReplacingMergeTree
大数据·hive·hadoop·sql·clickhouse·spark·hbase
人间打气筒(Ada)13 天前
Centos7 搭建hadoop2.7.2、hbase伪分布式集群
数据库·分布式·hbase
張萠飛14 天前
Phoenix+Hbase和Doris两个方案如何选择,能不能拿Doris完全替代Phoenix+Hbase?有什么难点?
大数据·数据库·hbase
麦嘟学编程14 天前
快速配置 HBase 完全分布式(依赖已部署的 Hadoop+ZooKeeper)
hadoop·分布式·hbase
yumgpkpm15 天前
CMP(类Cloudera CDP 7.3 404版华为Kunpeng)与其他大数据平台对比
大数据·hive·hadoop·elasticsearch·kafka·hbase·cloudera