Starrocks 简介

一、定义

Starrocks 是新一代极速全场景 MPP 数据库。StarRocks 采用分布式架构,对数据表进行水平划分并以多副本存储。集群规模可以灵活伸缩,能够支持 10PB 级别的数据分析; 支持 MPP 框架,并行加速计算; 支持多副本,具有弹性容错能力。

StarRocks 采用关系模型,使用严格的数据类型和列式存储引擎,通过编码和压缩技术,降低读写放大;使用向量化执行方式,充分挖掘多核 CPU 的并行计算能力,从而显著提升查询性能。

二、适用场景

StarRocks 可以满足企业级用户的多种分析需求,包括 OLAP 多维分析、定制报表、实时数据分析和 Ad-hoc 数据分析等。具体的业务场景包括:

  • OLAP 多维分析:用户行为分析、用户画像、财务报表、系统监控分析;
  • 实时数据分析:电商数据分析、直播质量分析、物流运单分析、广告投放分析;
  • 高并发查询:广告主表分析、Dashbroad 多页面分析;
  • 统一分析:通过使用一套系统解决上述场景,降低系统复杂度和多技术栈开发成本;

三、基本概念

  • FE:FrontEnd 简称 FE,是 StarRocks 的前端节点,负责管理元数据,管理客户端连接,进行查询规划,查询调度等工作;
  • BE:BackEnd 简称 BE,是 StarRocks 的后端节点,负责数据存储,计算执行,以及 compaction,副本管理等工作;
  • Broker:StarRocks 中和外部 HDFS / 对象存储等外部数据对接的中转服务,辅助提供导入导出功能;
  • StarRocksManager:StarRocks 的管理工具,提供 StarRocks 集群管理、在线查询、故障查询、监控报警的可视化工具;
  • Tablet:StarRocks 中表的逻辑分片,也是 StarRocks 中副本管理的基本单位,每个表根据分区和分桶机制被划分成多个 Tablet 存储在不同 BE 节点上;

四、系统架构

StarRocks 集群由 FE 和 BE 构成, 可以使用 MySQL 客户端访问 StarRocks 集群。

4.1 FE

  • FE 接收 MySQL 客户端的连接, 解析并执行 SQL 语句;
  • 管理元数据, 执行 SQL DDL 命令, 用 Catalog 记录库, 表, 分区, tablet 副本等信息;
  • FE 高可用部署, 使用复制协议选主和主从同步元数据, 所有的元数据修改操作, 由 FE leader 节点完成, FE follower 节点可执行读操作。元数据的读写满足顺序一致性。FE 的节点数目采用 2n+1, 可容忍 n 个节点故障。当 FE leader故障时, 从现有的 follower 节点重新选主, 完成故障切换;
  • FE 的 SQL layer 对用户提交的 SQL 进行解析, 分析, 改写, 语义分析和关系代数优化, 生产逻辑执行计划;
  • FE 的 Planner 负责把逻辑计划转化为可分布式执行的物理计划, 分发给一组 BE;
  • FE 监督 BE, 管理 BE 的上下线, 根据 BE 的存活和健康状态, 维持 tablet 副本的数量;
  • FE 协调数据导入, 保证数据导入的一致性;

4.2 BE

  • BE 管理 tablet 副本, tablet 是 table 经过分区分桶形成的子表, 采用列式存储;
  • BE 受 FE 指导, 创建或删除子表;
  • BE 接收 FE 分发的物理执行计划并指定 BE coordinator 节点, 在 BE coordinator 的调度下, 与其他 BE worker 共同协作完成执行;
  • BE 读本地的列存储引擎获取数据,并通过索引和谓词下沉快速过滤数据;
  • BE 后台执行 compact 任务, 减少查询时的读放大;
  • 数据导入时, 由 FE 指定 BE coordinator, 将数据以 fanout 的形式写入到 tablet 多副本所在的 BE 上;
相关推荐
qq_2351321711 分钟前
五金制造行业ERP系统多少钱?易呈erp五金行业版功能模块详解与成功案例分享
大数据·运维·人工智能·制造·智能制造
杨云龙UP17 分钟前
Oracle 19c:RMAN Duplicate异机复制数据库实操_20260402
linux·运维·服务器·数据库·网络协议·tcp/ip·oracle
数字化顾问21 分钟前
(87页PPT)DG1165大数据平台建设方案技术交流(附下载方式)
大数据
刘~浪地球21 分钟前
Redis 从入门到精通(七):集合操作详解
数据库·chrome·redis
光泽雨22 分钟前
SQL分组Group By
数据库
我真会写代码37 分钟前
MySQL高频面试题(含详细解析):从基础到高级,备战面试不踩坑
数据库·mysql·面试
jiang_changsheng40 分钟前
亚马逊的(A9、COSMO)和视频推流(如ABR)点击推广算法
大数据·数据挖掘
观远数据41 分钟前
未来3年企业数据分析的核心:基于自然语言的AI优先决策体系如何搭建
数据库·人工智能·数据分析
YummyJacky43 分钟前
Redis在项目中的应用
数据库·redis·缓存
qq_283720051 小时前
MySQL 8.0新特性高频面试题 30 道(超详细答案)
数据库·mysql·面试·mysql8·高频试题