Hbase-面试题

1. Hbase-region切分

  1. 自动切分,默认情况下
    1. 2.0版本,第一次region的数据达到256M,会进行切分,以后就是每达到10G切分一次,切分完成后,会进行负载均衡,均衡到其他regionserver
  2. 预分区+自定义rowkey
    1. 可以理解为预切分
    2. 比如预分区,每个regionserver会有10个region,每个region都有startrow和endrow
    3. 生产上必须要用预分区+自定义rowkey
    4. 预分区好了之后,即使没有数据,也会新建10个region的空文件
    5. 以后存数据的时候,会均匀的存到每个region中

2. Hbase-大合并和小合并

大合并:将过期数据删除,将文件进行合并 企业中7天进行一次

小合并:将过期数据标记,但是不会删除,只会合并邻近的文件

3. Hbase-内存数据刷写

  1. 手动刷写
    1. 用命令刷写
  2. 定时刷写
  3. 设置参数
    1. MemStore达到128M
    2. 如果MemStore比较多,而且都没有达到128M,可以设置region的大小为512M

4. Hbase-二级索引

4.1. 问题

hbase查询如果过滤条件不是rowkey,就会全局遍历

举例:

如果根据name过滤,就会全局遍历

sql 复制代码
id    name    age  
1     ikun    19   

4.2. 解决

添加二级索引,其实就是再新建一个表,以name为rowkey

sql 复制代码
name  id  
ikun  1 
相关推荐
静听山水1 小时前
StarRocks高级特性
数据库
无忧智库1 小时前
某市“十五五“知识产权大数据监管平台与全链条保护系统建设方案深度解读(WORD)
大数据·人工智能
范纹杉想快点毕业1 小时前
从单片机基础到程序框架:全方位技术深度解析
数据库·mongodb
晚风_END1 小时前
Linux|操作系统|elasticdump的二进制方式部署
运维·服务器·开发语言·数据库·jenkins·数据库开发·数据库架构
devmoon1 小时前
Polkadot SDK 自定义 Pallet Benchmark 指南:生成并接入 Weight
开发语言·网络·数据库·web3·区块链·波卡
综合热讯1 小时前
股票融资融券交易时间限制一览与制度说明
大数据·人工智能·区块链
华农DrLai1 小时前
Spark SQL Catalyst 优化器详解
大数据·hive·sql·flink·spark
数据知道1 小时前
PostgreSQL 故障排查:紧急排查与 SQL 熔断处理(CPU 占用 100% 等情况)
数据库·sql·postgresql
静听山水1 小时前
Redis的Pipeline (管道)
数据库·redis·php
Pluchon1 小时前
硅基计划4.0 算法 简单模拟实现位图&布隆过滤器
java·大数据·开发语言·数据结构·算法·哈希算法