【StarRocks-1.简介】

一、简介:

starRocks起源于开源软件Doris,其相对Doris的社区环境,starRcoks有商业团队维护、快速版本迭代和dockerHub高支持,让我在生产环境中更加偏向于starRocks,而不是拥抱Doris开源社区。StarRocks的版本更新速度、学习文档和论坛都让小白更加容易入手。性能上StarRocks和Doris相差不大,功能性上还是有些差异,具体参照官网。

二、特性:

  • 1.MMP分布式执行
    通过分布式、分区、分桶将数据小粒度化,然后通过高并发的去并行计算相关小粒度分区或分桶文件。先分而治之存储,再通过多机资源高并发加速查询。(对高并发查询是否有和CK一样缺陷?)
  • 2.全面向量化执行引擎
    简单叙述下全面向量执行引擎的优势:
    • 向量化数据处理:就是列存储比行级存储更加高效
    • 批处理:批处理方式处理查询,而不是逐条处理,减少开销高效并行
    • 谓词下推和过滤:能将谓词下推到存储层,减少数据量
    • 内存策略,批量内存分配,减少了内存分配和释放的开销
  • 3.存算分离
  • 4.CBO 优化器

三、应用场景:

starRocks一般的定位都是实时数仓,它的应用场景和它的数据模型有着密不可分的关系。类似CK的引擎,starRocks也具备明细模型 (常用于存储历史数据,不更新数据业务场景)、聚合模型 (针对指标聚合的业务场景)、更新模型 (实时频繁更新业务场景)、主键模型(主键不重复,通过主键修改数据),四大模型使StarRocks支持更多的业务场景。

四、竞品对比:CK与starRocks

  • 1.性能:
    测试集:非官网的流量数据,上亿级别的单表与千万级的多张表。
    资源:非SSD磁盘、128g内存、32核CPU
    结果:
    大单表:CK的导入、查询速率都是超过StarRocks的,但是后期集群数量的增加,StarRocks的查询速率得到了提升(感觉StarRocks的分布式调度能力比CK强)。
    多表查询:starRocks的多表JOIN查询能力还是比CK有明显优势。
  • 2.功能:
    starRocks的功能还在迭代开发,其在函数与第三方组件支持上还有待进一步的发展。(更新速度还是可以的)
  • 3.运维:
    这个维度是StarRocks碾压CK,节点弹性扩展、数据自动负载、副本自动修复、优秀的web-ui、Mysql语法等,让我这种运维+开发人员很是受用。

五、选型

小集群非联表还是CK,反之StarRocks

相关推荐
StarRocks_labs4 天前
淘宝闪购实时分析黑科技:StarRocks + Paimon撑起秋天第一波奶茶自由
starrocks·数据湖·阿里巴巴·paimon·物化视图
镜舟科技5 天前
告别 Hadoop,拥抱 StarRocks!政采云数据平台升级之路
大数据·starrocks·数据仓库·hadoop·存算分离
StarRocks_labs16 天前
欧洲数字化养殖平台 Herdwatch 借力 Iceberg + StarRocks 提升分析能力
数据库·starrocks·iceberg·湖仓一体架构·herdwatch
阿里云大数据AI技术20 天前
鹰角网络基于阿里云 EMR Serverless StarRocks 的实时分析工程实践
starrocks·clickhouse·阿里云·emr·实时分析
小Tomkk21 天前
StarRocks不能启动 ,StarRocksFe节点不能启动问题 处理
starrocks·log满了
jakeswang1 个月前
去哪儿StarRocks实践
starrocks·后端
鸿乃江边鸟1 个月前
Starrocks中的 Query Profile以及explain analyze及trace命令中的区别
大数据·starrocks·sql
鸿乃江边鸟1 个月前
Starrocks ShortCircuit短路径的调度
大数据·starrocks·sql
镜舟科技1 个月前
什么是列存储(Columnar Storage)?深度解析其原理与应用场景
starrocks·数据分析·列存储·行存储·mpp分布式架构