Hadoop-33 HBase 初识简介 项目简介 整体架构 HMaster HRegionServer Region

点一下关注吧!!!非常感谢!!持续更新!!!

目前已经更新到了:

  • Hadoop
  • HDFS
  • MapReduce
  • Hive
  • Flume
  • Sqoop
  • Zookeeper

章节内容

上节我们完成了:

  • 并发出现的问题
  • 锁的解决方案
  • ZK分布式锁的解决方案
  • 实现一个简单的分布式锁ZK版

背景介绍

这里是三台公网云服务器,每台 2C4G,搭建一个Hadoop的学习环境,供我学习。

之前已经在 VM 虚拟机上搭建过一次,但是没留下笔记,这次趁着前几天薅羊毛的3台机器,赶紧尝试在公网上搭建体验一下。

  • 2C4G 编号 h121
  • 2C4G 编号 h122
  • 2C2G 编号 h123

项目简介

HBase 基于 Google 的 BigTable 论文而来,是一个分布式海量列式非关系型数据库,可以提供超大规模数据集的实时随机读写

我们平常用的 MySQL 是行存储,空字段也会占用和浪费存储空间。

列存储可以减少存储空间的占用,同时可以支持非常多的列

项目优点

  • 海量存储:底层基于HDFS存储海量数据
  • 列式存储:HBase表的数据是基于列族进行存储的,一个列族包含多个列
  • 极易扩展:底层依赖HDFS,当磁盘空间不足时,只需要动态增加DataNode服务节点
  • 高并发:支持高并发的读写请求
  • 稀疏:稀疏主要是针对HBase列的灵活性,在列族中,你可以指定任意多的列,在列数据为空的情况下,是不会占用存储空间的。
  • 数据的多版本:HBase表中的数据可以有多个版本值,默认情况下是根据版本号去区分的,版本号就是插入数据的时间戳
  • 数据类型单一:所有的数据在HBase中是以字节数组进行存储的。

项目应用

  • 交通方面:船舶GPS信息,每天有上千万的数据
  • 金融方面:消费信息等等
  • 电商方面:电商网站交易、物流、浏览等
  • 电信方面:通话信息等等

数据模型

详细的表格概念:

整体架构

ZooKeeper

  • 实现了 HMaster高可用 保存了HBase元数据 是所有HBase表的寻址入口
  • 对HMaster和HRegionServer实现了监控

HMaster

  • HRegionServer分配Region 维护整个集群的负载均衡
  • 维护集群的元数据信息
  • 发现失效的Region,将失效的Region分配到正常的HRegionServer上

HRegionServer

  • 负责管理Region
  • 接收客户端读写数据请求
  • 切分在运行过程中变大的Region

Region

  • 每个HRegion由多个Store构成
  • 每个Store保存成一个列族(Columns Family),表有几个列族,就有几个Store
  • 每个Store由一个MemStore和多个StoreFile组成,MemStore是Store在内存中的内容,写到文件后就是StoreFile。
相关推荐
时序数据说25 分钟前
时序数据库IoTDB的核心优势
大数据·数据库·物联网·开源·时序数据库·iotdb
ZYMFZ1 小时前
Linux系统shell脚本(四)
linux·运维·服务器
kaikaile19951 小时前
在Ubuntu平台搭建RTMP直播服务器使用SRS简要指南
linux·服务器·ubuntu
年年测试1 小时前
在LangChain中无缝接入MCP服务器扩展AI智能体能力
服务器·人工智能·langchain
喂完待续1 小时前
【Big Data】Apache Kafka 分布式流处理平台的实时处理实践与洞察
分布式·kafka·消息队列·big data·数据处理·序列晋升
计算机毕设残哥1 小时前
HDFS存储农业大数据的秘密是什么?高级大豆数据分析与可视化系统架构设计思路
大数据·hadoop·python·hdfs·数据分析·spark·django
行思理1 小时前
攻击服务器的方式有哪些,对应的应对策略有哪些?
运维·服务器
IT毕设实战小研1 小时前
2026届大数据毕业设计选题推荐-基于大数据旅游数据分析与推荐系统 爬虫数据可视化分析
大数据·人工智能·爬虫·机器学习·架构·数据分析·课程设计
AlenLi2 小时前
TypeScript - 开发圣经SOLID设计原则
前端·架构
工藤新一¹2 小时前
Linux —— 环境变量
linux·运维·服务器·环境变量·c/c++