HBase 创建不分裂的表 ( 禁止 Table Split )

注意:由于 HBase 版本众多,配置表的语法在不同版本上会有差异,本文介绍的配置方法是在 1.4.9 版本上测试的,使用 HBase 2.0+ 的版本需要核实并修改相关配置方法!

有时候,出于特殊需要,我们希望对 HBase 表进行预分区后,禁止表再自动 Split,具体做法就是设置表的 SPLIT_POLICY 配置项,将分裂策略设置为 DisabledRegionSplitPolicy。以下是一个示例,建表时进行了预分区,设置了 510 个 Region,并显式地配置切分策略为 DisabledRegionSplitPolicy

bash 复制代码
TABLE_NAME="usertable"
REGIN_SPLITS=510
cat << EOF | sudo -u hbase hbase shell
create '${TABLE_NAME}', 'cf', {METADATA => {'SPLIT_POLICY' => 'org.apache.hadoop.hbase.regionserver.DisabledRegionSplitPolicy'}}, {SPLITS => (2..${REGIN_SPLITS}).map {|i| "user#{1000+(i-1)*(9999-1000)/${REGIN_SPLITS}}"}}
describe '${TABLE_NAME}'
EOF

要特别注意的是:在旧的 HBase 版本上,例如本文使用的 1.4.9,必须配置为 METADATA => xxx ,而不是使用 CONFIGURATION => xxx,虽然使用后者并不报错,但修改是无效的!

还有一个特别重要问题,测试表明:在 EMR 5.23.0 版本上,修改 hbase.regionserver.region.split.policyorg.apache.hadoop.hbase.regionserver.DisabledRegionSplitPolicy 对单表无效!虽然这很诡异,但测试下来确实无效!似乎在表级别上配置才有效。

总得来说,如果能在表级别上单独配置属性是最好的,这样产不会影响到其他表。


以下是其他相关的配置和说明:

HBase 默认的切分策略是 IncreasingToUpperBoundRegionSplitPolicy,该策略在 Region 小于 10 GB 时有一套自己的切分规则,超过 10 GB 后才会遵循 ConstantSizeRegionSplitPolicy

hbase.hregion.max.filesize 设为一个极大值并把 hbase.regionserver.region.split.policy 设为 org.apache.hadoop.hbase.regionserver.ConstantSizeRegionSplitPolicy 同样可以实现禁止 split 的目的,但是,和上面提到的情况一样,在 EMR 5.23.0 版本上,修改这两项配置对单表无效,同样只能修改表级别的属性。

相关推荐
火龙谷4 天前
【hadoop】Hbase java api 案例
java·hadoop·hbase
jtymyxmz6 天前
mac m2 安装 hbase
macos·hbase·homebrew
张彦峰ZYF9 天前
如何封装一个线程安全、可复用的 HBase 查询模板
数据库·安全·hbase
涤生大数据9 天前
海量数据存储与分析:HBase vs ClickHouse vs Doris 三大数据库优劣对比指南
数据库·clickhouse·hbase
火龙谷12 天前
【hadoop】案例:MapReduce批量写入HBase
hadoop·hbase·mapreduce
涤生大数据13 天前
HBase协处理器深度解析:原理、实现与最佳实践
大数据·数据库·hbase
济南java开发,求内推13 天前
关于hbaseRegion和hbaseRowKey的一些处理
负载均衡·hbase·数据倾斜·rowkey·热点数据
Bob999815 天前
三大浏览器(Firefox、Opera、Chrome)多个Profile管理!
开发语言·javascript·eclipse·sqlite·ecmascript·hbase
egoist202317 天前
【C++指南】告别C字符串陷阱:如何实现封装string?
开发语言·数据结构·c++·c++11·string·auto·深/浅拷贝
火龙谷18 天前
【hadoop】HBase shell 操作
大数据·hadoop·hbase