传统数仓和clickhouse对比

背景

传统数仓一般都是Hive+SparkSql作为代表,不过也包括Kylin等,而clickhouse是实时OLAP的代表,我们简单看下他们的对比

传统数仓和clickhouse对比

Hive+SparkSQL的传统数仓:

1.数据更新速度慢,由于传统数仓一般都是基于HDFS构建的,数据更新也就意味着把数据写入HDFS文件中,由于大部分表数据的结构化做的比较差,比如都是基于String表示,所以写入性能很差,意味着数据更新速度非常慢

2.数据查询速度,基于SparkSql进行数据查询虽然可以利用spark基于内存的特点提高查询速度,但是总体上说这个查询速度还是太慢,不能支持实时查询的要求,为了支持实时查询的需求,一般会引入Kylin,也就是提前预计算,但是提前预计算的问题在于维度爆炸导致的数据膨胀问题,而这些数据会导致存储的大量占用或者浪费。

基于clickhouse的实时分析

1.数据更新速度中等,在ck中我们可以通过批量插入数据的方式来达到比较好的数据插入速度,当然比起OLTP来说,更新速度还是不足,但是通过分批的方式,达到每秒几万的数据插入速度还是可以做到的。

2.数据查询速度很快,这是ck最擅长的地方,可以在秒级别计算出各种维度的数据聚合的分析结果,而不需要进行预计算,自然也不需要浪费存储

相关推荐
武子康4 天前
大数据-154 Apache Druid 架构与原理详解 基础架构、架构演进
java·大数据·clickhouse·hdfs·架构·flink·apache
武子康5 天前
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!
java·大数据·clickhouse·flink·apache
AAEllisonPang5 天前
ClickHouse 的 MergeTree 引擎有哪些性能优势?
大数据·数据库·clickhouse
SelectDB技术团队5 天前
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
数据仓库·clickhouse·doris·快手·lakehouse
武子康5 天前
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
大数据·hadoop·clickhouse·hdfs·架构·apache
武子康5 天前
大数据-155 Apache Druid 架构与原理详解 数据存储 索引服务 压缩机制
java·大数据·clickhouse·架构·flink·系统架构·apache
AAEllisonPang5 天前
ClickHouse 引擎的选择
大数据·数据库·clickhouse
云观秋毫5 天前
APO v0.5.0 发布:可视化配置告警规则;优化时间筛选器;支持自建的ClickHouse和VictoriaMetrics
运维·clickhouse
Biturd5 天前
docker-compose 快速部署clickhouse集群
clickhouse·docker·容器
武子康5 天前
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
java·大数据·clickhouse·flink·kafka·scala·apache