【技术预研】starRocks高性价比替换hbase

偏振万花筒2024-01-26 13:22

hbase作为类列数据库，更准确说是列族数据库。本质上是一个文件查询系统，追求极限的写入和读取。

而starRocks作为olap数据库，在保持优秀的关联计算能力的前提下，还有不错的查询效率，当然和hbase本身比还有一定差距。

但对于一般场景还是可以接受的，毕竟要省掉很多的资源。与hdfs等组件解耦，降低运维压力。

starRock通过以下三个优化来提升性能：

相当于在存储的时候，选择某一列或者某几列作为排序键，这样在数据存储的时候就按照这个顺序存放。

在数据查询的时候，可以按照顺序去查询。

有了排序键，但如果数据量大，且查询的内容比较少的话，对内存的压力就很大。

其实可以考虑跳过很多不需要查询的内容。这就有了前缀索引（clickhouse中有类似的稀疏索引）。

就相当于排序键的索引，每隔一定条数记录（1024条），抽出第一条作为前缀索引，这样需要加载到内存的数据就是原来的1/1024。大大降低了内存压力。

bitMap相当于额外增加了对单个字段的索引。主要是针对枚举值比较少的场景。

例如：性别这个字段，基本上只有男、女、保密、不确定等有限个字段，将这四种枚举值转换为bit数组。再过滤的时候直接进行位运算，那么那么读取数据的时候，只会拉取满足条件的数据。