HBase 创建不分裂的表 ( 禁止 Table Split )

注意：由于 HBase 版本众多，配置表的语法在不同版本上会有差异，本文介绍的配置方法是在 1.4.9 版本上测试的，使用 HBase 2.0+ 的版本需要核实并修改相关配置方法！

有时候，出于特殊需要，我们希望对 HBase 表进行预分区后，禁止表再自动 Split，具体做法就是设置表的 SPLIT_POLICY 配置项，将分裂策略设置为 DisabledRegionSplitPolicy。以下是一个示例，建表时进行了预分区，设置了 510 个 Region，并显式地配置切分策略为 DisabledRegionSplitPolicy

bash 复制代码

TABLE_NAME="usertable"
REGIN_SPLITS=510
cat << EOF | sudo -u hbase hbase shell
create '${TABLE_NAME}', 'cf', {METADATA => {'SPLIT_POLICY' => 'org.apache.hadoop.hbase.regionserver.DisabledRegionSplitPolicy'}}, {SPLITS => (2..${REGIN_SPLITS}).map {|i| "user#{1000+(i-1)*(9999-1000)/${REGIN_SPLITS}}"}}
describe '${TABLE_NAME}'
EOF

要特别注意的是：在旧的 HBase 版本上，例如本文使用的 1.4.9，必须配置为 METADATA => xxx ，而不是使用 CONFIGURATION => xxx，虽然使用后者并不报错，但修改是无效的！

还有一个特别重要问题，测试表明：在 EMR 5.23.0 版本上，修改 hbase.regionserver.region.split.policy 为 org.apache.hadoop.hbase.regionserver.DisabledRegionSplitPolicy 对单表无效！虽然这很诡异，但测试下来确实无效！似乎在表级别上配置才有效。

总得来说，如果能在表级别上单独配置属性是最好的，这样产不会影响到其他表。

以下是其他相关的配置和说明：

HBase 默认的切分策略是 IncreasingToUpperBoundRegionSplitPolicy，该策略在 Region 小于 10 GB 时有一套自己的切分规则，超过 10 GB 后才会遵循 ConstantSizeRegionSplitPolicy。

将 hbase.hregion.max.filesize 设为一个极大值并把 hbase.regionserver.region.split.policy 设为 org.apache.hadoop.hbase.regionserver.ConstantSizeRegionSplitPolicy 同样可以实现禁止 split 的目的，但是，和上面提到的情况一样，在 EMR 5.23.0 版本上，修改这两项配置对单表无效，同样只能修改表级别的属性。