【大数据技术详解】——HBase技术（学习笔记）

特征	说明
海量数据	支持 PB 级数据、十亿级行、百万列
高吞吐写入	每秒百万级写入（如日志、事件流）
低延迟随机读	毫秒级响应（基于 RowKey 精确查询）
强一致性	单行 ACID，多行最终一致

❌ 不适用场景

复杂 SQL 查询（JOIN、GROUP BY、子查询）
全文搜索
高频事务（如银行转账）
小规模数据（HBase 启动开销大）

二、架构原理

核心组件

组件	职责
HMaster	管理元数据、Region 分配、故障恢复（无单点，支持 HA）
RegionServer	存储实际数据（Region），处理读写请求
ZooKeeper	协调集群状态、选举 HMaster、存储元数据地址
HDFS	底层存储 WAL（Write-Ahead Log）和 HFile（数据文件）

数据模型

HBase 是 稀疏、多维、排序的映射表，结构如下：

表格

RowKey	Column Family:Qualifier	Timestamp	Value
user_1001	info:name	t3	"张三"
user_1001	info:age	t2	"25"
user_1001	action:last_login	t1	"2026-03-15 10:00"

RowKey：唯一主键，字典序排序（设计关键！）
Column Family（列族） ：物理存储单元，需预定义（如 info, action）
Qualifier（列限定符） ：动态列，无需预定义（如 name, age）
Timestamp：自动或手动指定，支持多版本

💡 关键特性：

同一行数据物理存储在一起

列族内列可动态扩展

自动按 RowKey 分区（Region Split）

三、核心特性

特性	说明
水平扩展	自动分片（Region Split），加机器即可扩容
高可用	RegionServer 故障时，HMaster 自动迁移 Region
强一致性	单行操作原子性（Put/Delete）
多版本	默认保留 3 个版本，可按时间戳查询历史
TTL（生存时间）	自动过期删除旧数据（如日志保留 30 天）
布隆过滤器	加速"某行是否存在"的判断，减少磁盘 IO

四、常用操作（Shell 示例）

sql 复制代码

# 创建表（指定列族）
create 'user_profile', 'info', 'action'

# 写入数据
put 'user_profile', 'user_1001', 'info:name', '张三'
put 'user_profile', 'user_1001', 'info:age', '25', 1710489600000

# 读取整行
get 'user_profile', 'user_1001'

# 读取指定列
get 'user_profile', 'user_1001', {COLUMN => 'info:name'}

# 扫描表（慎用！）
scan 'user_profile', {LIMIT => 10}

# 删除列
delete 'user_profile', 'user_1001', 'info:age'

五、RowKey 设计原则（性能关键！）

⚠️ 反模式

单调递增 ID（如 UUID、时间戳） → 导致写热点（所有写入集中在最后一个 Region）
过长 RowKey → 增加存储和网络开销

✅ 最佳实践

散列前缀 ：MD5(user_id) + user_id 或 hash(user_id) % 100 + user_id
组合字段 ：device_id + timestamp（用于时序查询）
反转时间戳 ：Long.MAX_VALUE - ts 实现"最新数据在前"
定长编码：避免变长导致排序异常

📌 目标：让数据均匀分布到所有 RegionServer，避免热点。

六、与 Hive / Spark 集成

1. Hive 查询 HBase

sql 复制代码

-- 创建 Hive 外部表映射 HBase
CREATE EXTERNAL TABLE hive_user_profile (
  key STRING,
  name STRING,
  age INT
)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES (
  "hbase.columns.mapping" = ":key,info:name,info:age"
)
TBLPROPERTIES ("hbase.table.name" = "user_profile");

⚠️ 性能较差，仅适合小数据量分析。

2. Spark 读写 HBase

使用 SHC（Spark HBase Connector） 或 DataSource API：

scala

sql 复制代码

// 读取
val df = spark.read
  .format("org.apache.hadoop.hbase.spark")
  .option("hbase.table", "user_profile")
  .option("hbase.columns.mapping", "key STRING :key, name STRING info:name")
  .load()

// 写入
df.write
  .format("org.apache.hadoop.hbase.spark")
  .option("hbase.table", "user_profile")
  .save()

七、运维与调优要点

表格

方向	建议
Region 数量	单 RegionServer 建议 20--200 个 Region
MemStore 大小	调整 `hbase.hregion.memstore.flush.size`（默认 128MB）
BlockCache	开启 LRU 缓存，提升读性能
Compaction	定期合并小文件（Minor/Major Compaction）
WAL 优化	高吞吐写入可关闭 WAL（`put.setDurability(Durability.SKIP_WAL)`），但有丢数据风险

八、HBase vs 其他数据库

表格

数据库	类型	优势	适用场景
HBase	列式 NoSQL	海量数据、高写入、低延迟点查	用户画像、时序数据
MySQL	关系型	事务、复杂查询	业务系统、OLTP
Elasticsearch	搜索引擎	全文检索、聚合分析	日志分析、搜索
Cassandra	宽列 NoSQL	多数据中心、高可用	全球分布式应用
ClickHouse	列式 OLAP	超快聚合查询	BI 报表、分析

九、总结

HBase 的核心价值在于：

以 HDFS 的可靠性为基础，提供海量数据的实时随机读写能力

它是 Lambda 架构中 Speed Layer 的经典存储 ，也是 实时数仓的重要组件 。尽管学习曲线较陡（尤其 RowKey 设计），但在需要 高并发写入 + 快速点查 的场景中，仍是不可替代的选择。

🔜 演进趋势：

云原生 HBase（如阿里云 HBase、AWS DynamoDB）

与 Flink 集成实现实时入湖（HBase → Iceberg）

替代方案：Apache Kudu（已停止）、Apache Doris（实时 OLAP）

如需 HBase 表设计模板 、Spark 读写代码示例 或 性能压测方案，欢迎继续提问！