Hbase-面试题

1. Hbase-region切分

  1. 自动切分,默认情况下
    1. 2.0版本,第一次region的数据达到256M,会进行切分,以后就是每达到10G切分一次,切分完成后,会进行负载均衡,均衡到其他regionserver
  2. 预分区+自定义rowkey
    1. 可以理解为预切分
    2. 比如预分区,每个regionserver会有10个region,每个region都有startrow和endrow
    3. 生产上必须要用预分区+自定义rowkey
    4. 预分区好了之后,即使没有数据,也会新建10个region的空文件
    5. 以后存数据的时候,会均匀的存到每个region中

2. Hbase-大合并和小合并

大合并:将过期数据删除,将文件进行合并 企业中7天进行一次

小合并:将过期数据标记,但是不会删除,只会合并邻近的文件

3. Hbase-内存数据刷写

  1. 手动刷写
    1. 用命令刷写
  2. 定时刷写
  3. 设置参数
    1. MemStore达到128M
    2. 如果MemStore比较多,而且都没有达到128M,可以设置region的大小为512M

4. Hbase-二级索引

4.1. 问题

hbase查询如果过滤条件不是rowkey,就会全局遍历

举例:

如果根据name过滤,就会全局遍历

sql 复制代码
id    name    age  
1     ikun    19   

4.2. 解决

添加二级索引,其实就是再新建一个表,以name为rowkey

sql 复制代码
name  id  
ikun  1 
相关推荐
Linux运维老纪10 分钟前
分布式存储的技术选型之HDFS、Ceph、MinIO对比
大数据·分布式·ceph·hdfs·云原生·云计算·运维开发
DavidSoCool30 分钟前
es 3期 第25节-运用Rollup减少数据存储
大数据·elasticsearch·搜索引擎
Elastic 中国社区官方博客34 分钟前
使用 Elasticsearch 导航检索增强生成图表
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
小金的学习笔记38 分钟前
RedisTemplate和Redisson的使用和区别
数据库·redis·缓存
Ray.19981 小时前
Flink在流处理中,为什么还会有窗口的概念呢
大数据·flink
抛砖者1 小时前
3.Flink中重要API的使用
大数据·flink
新知图书1 小时前
MySQL用户授权、收回权限与查看权限
数据库·mysql·安全
金州饿霸1 小时前
Flink运行时架构
大数据·flink
金州饿霸1 小时前
Flink中的时间和窗口
大数据·flink
文城5211 小时前
Mysql存储过程(学习自用)
数据库·学习·mysql