OLAP在线实时 数据分析平台

随着业务的增长,精细化运营的提出,产品对数据部门提出了更高的要求,包括需要对实时数据进行查询分析,快速调整运营策略;对小部分人群做 AB 实验,验证新功能的有效性;减少数据查询时间,降低数据查询难度,让非专业人员可以自主分析、探查数据等。为满足业务需求,MateApp 实现了集事件分析、转化分析、自定义留存、用户分群、行为流分析等功能于一体的 OLAP 数据分析平台。

这是一个典型的 OLAP 的架构 ,分成两部分,一部分是离线,一部分是实时。

  1. 在离线场景中,我们使用 DataX 把 Kafka 的数据集成到 Hive 数仓,再生成 BI 报表。BI 报表使用了 Superset
    组件来进行结果展示;
  2. 在实时场景中,一条线使用 GoSink 进行数据集成 ,把 GoSink 的数据集成到 ClickHouse ,另外一条线使用
    CnchKafka 把数据集成到 ByConity。最后通过 OLAP 查询平台获取数据进行查询。

ByConity 和 ClickHouse 功能对比

ByConity 是基于 ClickHouse 内核研发的开源云原生数据仓库,采用存算分离的架构。两者都具有以下特点:

  • 写入速度非常快,适用于大量数据的写入,写入数据量可达 50MB - 200MB/s
  • 查询速度非常快,在海量数据下,查询速度可达2-30GB/s 数据
  • 压缩比高,存储成本低,压缩比 可达 0.2~0.3

ByConity 拥有 ClickHouse 的优点,与 ClickHouse 保持了较好的兼容性,在读写分离、弹性扩缩容、数据强一致方面进行了增强。两者对于以下 OLAP 场景均适用:

  • 数据集可能很大 - 数十亿或数万亿行
  • 数据表中包含许多列
  • 仅查询特定几列
  • 结果必须以毫秒或秒为单位返回
相关推荐
哈伦20193 小时前
第八章 分类 决策树案例:成年人群体收入预测
决策树·分类·数据挖掘
没有梦想的咸鱼185-1037-16635 小时前
【双AI论文写作】基于claude code、codex双AI协同论文写作撰写与质量校准:从“数据分析→论文初稿→交叉审稿“全流程
人工智能·数据分析·ai写作
Cloud_Shy6185 小时前
Python 数据分析基础入门:《Excel Python:飞速搞定数据分析与处理》学习笔记系列(第十一章 Python 包跟踪器 中篇)
数据库·python·sql·数据分析·excel·web
Hali_Botebie7 小时前
岭回归(Ridge Regression),也称为L2正则化回归
数据挖掘·回归·kotlin
YangYang9YangYan7 小时前
2026运营专员职场能力提升:数据分析的价值与应用
数据挖掘·数据分析
没有梦想的咸鱼185-1037-16638 小时前
农业普查大数据与AI融合的数字农业与粮食安全智慧决策
大数据·人工智能·chatgpt·数据分析
生物信息与育种8 小时前
PlantBiMoE开源:轻量高效的植物基因组基础模型
人工智能·深度学习·职场和发展·数据分析·r语言
SelectDB9 小时前
PB 级自动驾驶数据秒级检索:Apache Doris 统一多模态数据平台实践
大数据·数据库·数据分析
天天进步20159 小时前
实战指南:Python全栈项目——基于机器学习的推荐引擎设计
人工智能·数据分析
安迁岚9 小时前
基于珠三角城市热岛热点核心中心点的等级化点格局分析
人工智能·arcgis·信息可视化·数据挖掘·数据分析·地统计