【技术预研】starRocks高性价比替换hbase

hbase作为类列数据库,更准确说是列族数据库。本质上是一个文件查询系统,追求极限的写入和读取。

而starRocks作为olap数据库,在保持优秀的关联计算能力的前提下,还有不错的查询效率,当然和hbase本身比还有一定差距。

但对于一般场景还是可以接受的,毕竟要省掉很多的资源。与hdfs等组件解耦,降低运维压力。

starRock通过以下三个优化来提升性能:

排序键

相当于在存储的时候,选择某一列或者某几列作为排序键,这样在数据存储的时候就按照这个顺序存放。

在数据查询的时候,可以按照顺序去查询。

前缀索引

有了排序键,但如果数据量大,且查询的内容比较少的话,对内存的压力就很大。

其实可以考虑跳过很多不需要查询的内容。这就有了前缀索引(clickhouse中有类似的稀疏索引)。

就相当于排序键的索引,每隔一定条数记录(1024条),抽出第一条作为前缀索引,这样需要加载到内存的数据就是原来的1/1024。大大降低了内存压力。

bitMap

bitMap相当于额外增加了对单个字段的索引。主要是针对枚举值比较少的场景。

例如:性别这个字段,基本上只有男、女、保密、不确定等有限个字段,将这四种枚举值转换为bit数组。再过滤的时候直接进行位运算,那么那么读取数据的时候,只会拉取满足条件的数据。

参考文档

面对百亿数据,Hbase为什么查询速度依然非常快? - 墨天轮
排序键和前缀索引 | StarRocks
Bitmap 索引 | StarRocks

相关推荐
迷枫71226 分钟前
DM8 目录结构与常用排查入口梳理
服务器·数据库
出海小龙26 分钟前
B2B 跟 B2C 的联盟营销有何根本区别?以及分别如何真正推动增长?
大数据·人工智能
QiLinkOS31 分钟前
【从实验室到商业战场:发明专利如何重塑科技与企业的共生生态】
大数据·c语言·数据结构·c++·人工智能·单片机·算法
不做无法实现的梦~34 分钟前
git指令速查
大数据·elasticsearch·搜索引擎
汤姆yu1 小时前
SkyClaw‑v1.0昆仑万维天工 AI
大数据·人工智能
我是大AI1 小时前
搜极星 GEO:让 AI 精准推荐,品牌不再隐形
大数据·人工智能·ai
2601_957787581 小时前
企业内容矩阵系统:AI赋能下的全链路运营与获客升级
大数据·人工智能·矩阵
Mr.Daozhi1 小时前
RAG 进阶实战:跑通 Demo 后我连续翻了 6 次车,逐一修复才真正可用(含 Gradio Web 版)
前端·数据库·langchain·大模型·gradio·rag·科研工具
龙亘川2 小时前
智慧政务大数据整体解决方案全解析|架构设计、建设内容、落地实践与价值复盘
大数据·政务
小程故事多_802 小时前
Claude Code自定义workflow skills用法
数据库·人工智能·智能体