OLAP在线实时 数据分析平台

随着业务的增长,精细化运营的提出,产品对数据部门提出了更高的要求,包括需要对实时数据进行查询分析,快速调整运营策略;对小部分人群做 AB 实验,验证新功能的有效性;减少数据查询时间,降低数据查询难度,让非专业人员可以自主分析、探查数据等。为满足业务需求,MateApp 实现了集事件分析、转化分析、自定义留存、用户分群、行为流分析等功能于一体的 OLAP 数据分析平台。

这是一个典型的 OLAP 的架构 ,分成两部分,一部分是离线,一部分是实时。

  1. 在离线场景中,我们使用 DataX 把 Kafka 的数据集成到 Hive 数仓,再生成 BI 报表。BI 报表使用了 Superset
    组件来进行结果展示;
  2. 在实时场景中,一条线使用 GoSink 进行数据集成 ,把 GoSink 的数据集成到 ClickHouse ,另外一条线使用
    CnchKafka 把数据集成到 ByConity。最后通过 OLAP 查询平台获取数据进行查询。

ByConity 和 ClickHouse 功能对比

ByConity 是基于 ClickHouse 内核研发的开源云原生数据仓库,采用存算分离的架构。两者都具有以下特点:

  • 写入速度非常快,适用于大量数据的写入,写入数据量可达 50MB - 200MB/s
  • 查询速度非常快,在海量数据下,查询速度可达2-30GB/s 数据
  • 压缩比高,存储成本低,压缩比 可达 0.2~0.3

ByConity 拥有 ClickHouse 的优点,与 ClickHouse 保持了较好的兼容性,在读写分离、弹性扩缩容、数据强一致方面进行了增强。两者对于以下 OLAP 场景均适用:

  • 数据集可能很大 - 数十亿或数万亿行
  • 数据表中包含许多列
  • 仅查询特定几列
  • 结果必须以毫秒或秒为单位返回
相关推荐
Databend18 小时前
2KB histogram 背后:Databend 如何低成本追踪长尾延迟
大数据·数据分析·agent
Aloudata技术团队21 小时前
正当红的 Context Layer 到底是什么?
数据分析
饼干哥哥8 天前
开源Skills|搭建亚马逊动态关键词库系统,每天抓SSS级机会词
人工智能·深度学习·数据分析
倔强的石头_9 天前
企业工商数据源站点:无验证无拦截,批量获取工商数据完整方案
数据分析
hboot16 天前
AI工程师第二课 - 数据处理
人工智能·python·数据分析
王小王-12317 天前
基于 Hive 的网易云音乐数据分析及可视化系统
hive·hadoop·数据分析·音乐数据分析·网易云音乐分析·hive音乐分析·hadoop网易云
Database_Cool_17 天前
大规模数据分析降本指南:AnalyticDB Serverless 弹性架构实战
数据仓库·阿里云·架构·数据分析·serverless
YangYang9YangYan17 天前
2026初入职场学习数据分析的价值
学习·数据挖掘·数据分析
有Li17 天前
PTCMIL:基于提示 token 聚类的全切片图像多实例学习分析文献速递/多模态医学影像最新进展
论文阅读·学习·数据挖掘·聚类·文献·医学生
数睿数据无代码开发17 天前
打破数据孤岛:深度解析 smardaten 数据连接器核心功能
数据挖掘·无代码