Hadoop-33 HBase 初识简介 项目简介 整体架构 HMaster HRegionServer Region

点一下关注吧!!!非常感谢!!持续更新!!!

目前已经更新到了:

  • Hadoop
  • HDFS
  • MapReduce
  • Hive
  • Flume
  • Sqoop
  • Zookeeper

章节内容

上节我们完成了:

  • 并发出现的问题
  • 锁的解决方案
  • ZK分布式锁的解决方案
  • 实现一个简单的分布式锁ZK版

背景介绍

这里是三台公网云服务器,每台 2C4G,搭建一个Hadoop的学习环境,供我学习。

之前已经在 VM 虚拟机上搭建过一次,但是没留下笔记,这次趁着前几天薅羊毛的3台机器,赶紧尝试在公网上搭建体验一下。

  • 2C4G 编号 h121
  • 2C4G 编号 h122
  • 2C2G 编号 h123

项目简介

HBase 基于 Google 的 BigTable 论文而来,是一个分布式海量列式非关系型数据库,可以提供超大规模数据集的实时随机读写

我们平常用的 MySQL 是行存储,空字段也会占用和浪费存储空间。

列存储可以减少存储空间的占用,同时可以支持非常多的列

项目优点

  • 海量存储:底层基于HDFS存储海量数据
  • 列式存储:HBase表的数据是基于列族进行存储的,一个列族包含多个列
  • 极易扩展:底层依赖HDFS,当磁盘空间不足时,只需要动态增加DataNode服务节点
  • 高并发:支持高并发的读写请求
  • 稀疏:稀疏主要是针对HBase列的灵活性,在列族中,你可以指定任意多的列,在列数据为空的情况下,是不会占用存储空间的。
  • 数据的多版本:HBase表中的数据可以有多个版本值,默认情况下是根据版本号去区分的,版本号就是插入数据的时间戳
  • 数据类型单一:所有的数据在HBase中是以字节数组进行存储的。

项目应用

  • 交通方面:船舶GPS信息,每天有上千万的数据
  • 金融方面:消费信息等等
  • 电商方面:电商网站交易、物流、浏览等
  • 电信方面:通话信息等等

数据模型

详细的表格概念:

整体架构

ZooKeeper

  • 实现了 HMaster高可用 保存了HBase元数据 是所有HBase表的寻址入口
  • 对HMaster和HRegionServer实现了监控

HMaster

  • HRegionServer分配Region 维护整个集群的负载均衡
  • 维护集群的元数据信息
  • 发现失效的Region,将失效的Region分配到正常的HRegionServer上

HRegionServer

  • 负责管理Region
  • 接收客户端读写数据请求
  • 切分在运行过程中变大的Region

Region

  • 每个HRegion由多个Store构成
  • 每个Store保存成一个列族(Columns Family),表有几个列族,就有几个Store
  • 每个Store由一个MemStore和多个StoreFile组成,MemStore是Store在内存中的内容,写到文件后就是StoreFile。
相关推荐
紧固视界2 分钟前
汽车紧固件最新技术趋势解析:2026上海紧固件专业展有哪些看点
大数据·人工智能·汽车·紧固件·上海紧固件展·上海紧固件专业展
刘佬GEO3 分钟前
本地门店做 GEO 的起步顺序:第一步先做什么?
大数据·网络·人工智能·搜索引擎·ai
成都被卷死的程序员6 分钟前
RustDesk 自建远程控制服务器部署全记录(含错误排查与最终方案)
运维·服务器
上海蓝色星球16 分钟前
流程标准化・作业一体化|蓝色星球造价机器人,以全流程线上化破解造价咨询管理困局
大数据·人工智能
marteker23 分钟前
哈雷戴维森在推出增长战略前重塑品牌形象
大数据·人工智能
TechWayfarer25 分钟前
当IP来自太空:卫星互联网时代的IP归属地查询挑战与落地实践
服务器·网络·tcp/ip
wuyoula26 分钟前
Python IP服务器防火墙源码解析与应用——网站安全防护策略探讨
服务器·tcp/ip·安全
歪歪歪比巴卜27 分钟前
2026年AI新媒体运营工具怎么选?核心功能与适用场景解析
大数据·矩阵·新媒体运营
迷藏49430 分钟前
**超融合架构下的Go语言实践:从零搭建高性能容器化微服务集群**在现代云原生时代,*
java·python·云原生·架构·golang
KKKlucifer31 分钟前
三权分立 + AI 审计:解析国内堡垒机的合规与智能双引擎
大数据·数据库·人工智能