HBase全量+增量迁移import/export方式

本文是用自带的hbase import/export方法,由于原端不开放hdfs数据,并且因为底层存储不能打快照,目标端也不开放,所以只能通过这种方式。(这种方式比较耗性能)

建议从主库,搞一个备份库,再用这种导出备份库的数据

前提准备:

1.原端hbase集群,并且能够操作机访问

2.目标端hbase集群,并且能够操作机访问

3.操作机,一台ecs

模拟原端数据

bash 复制代码
create_namespace 'test'
//创建一个名称为clark:test,列族名为cf的表
create 'test:user', 'cf'
// 插入数据。put 命名空间:表名,行键rowkey,列簇:字段名,值
put 'test:user','001','cf:name','clark'
put 'test:user','001','cf:age','28'
put 'test:user','002','cf:name','alice'
put 'test:user','002','cf:name','25'
//看一下数据
scan 'test:user'

全量迁移

1.看原表,表结构

bash 复制代码
./hbase shell
list
#查看有哪些表
describe 'test:user'

2.目标端建表

bash 复制代码
./hbase shell
#先创建命名空间
create_namespace 'test'
#创建表,不要有换行,如果有多行压缩成一行,或者末尾加\
create 'test:user',{NAME => 'cf', VERSIONS => '1', EVICT_BLOCKS_ON_CLOSE => 'false',NEW_VERSION_BEHAVIOR => 'false', KEEP_DELETED_CELLS => 'FALSE', CACHE_DATA_ON_WRITE=> 'false', DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', MIN_VERSIONS =>'0', REPLICATION_SCOPE => '0', BLOOMFILTER => 'ROW',CACHE_INDEX_ON_WRITE => 'false', IN_MEMORY => 'false', CACHE_BLOOMS_ON_WRITE =>'false', PREFETCH_BLOCKS_ON_OPEN => 'false', COMPRESSION => 'NONE', BLOCKCACHE =>'true', BLOCKSIZE => '65536', METADATA => {'STORAGE_POLICY' => 'DEFAULT','DFS_REPLICATION' => '2', 'CHS_PROMOTE_ON_MAJOR' => 'true'}} 

3.原端导出数据

bash 复制代码
./hbase org.apache.hadoop.hbase.mapreduce.Export test:user /tmp/hbase-export/test
ll /tmp/hbase-export/test

date +%s%3N

记录导出当前时间戳:1759118035736

4.目标端导入数据

bash 复制代码
./hbase org.apache.hadoop.hbase.mapreduce.Import test:user /tmp/hbase-export/test/

增量迁移

1. 在原端插入多条数据

bash 复制代码
put 'test:user','003','cf:name','abc'
put 'test:user','001','cf:age','29'

2. 原端导出数据

先scan,查看原端的时间格式,发现是时间戳。

bash 复制代码
./hbase -Dmapreduce.job.maps=10 org.apache.hadoop.hbase.mapreduce.Export test:user /tmp/incremental-export 1 1759118035736 1759131808806

这4个分别代表,命名空间:表名 导出最近版本(1代表的是最新的版本)开始时间戳 结束时间戳(这个可以通过scan看到数据上的时间戳)

3. 目标端导入数据

目标端导入

bash 复制代码
./hbase org.apache.hadoop.hbase.mapreduce.Import test:user /tmp/incremental-export

数据校验

先count对比行数,再抽样比对(由于版本不同并且没有开放hdfs数据,所以不能用md5sum)

bash 复制代码
# 小表直接计数(注意:大表耗时较长)
count 'namespace:table_name'

# 大表推荐用MapReduce(效率更高)
hbase org.apache.hadoop.hbase.mapreduce.RowCounter 'namespace:table_name'
相关推荐
武子康15 分钟前
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地
大数据·后端·apache hive
大大大大晴天2 小时前
Flink生产问题排障-Kryo serializer scala extensions are not available
大数据·flink
jiayou641 天前
KingbaseES 实战:深度解析数据库对象访问权限管理
数据库
李广坤2 天前
MySQL 大表字段变更实践(改名 + 改类型 + 改长度)
数据库
武子康2 天前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
大数据·后端·apache hive
爱可生开源社区3 天前
2026 年,优秀的 DBA 需要具备哪些素质?
数据库·人工智能·dba
随逸1773 天前
《从零搭建NestJS项目》
数据库·typescript
武子康3 天前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP4 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库4 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全