传统数仓和clickhouse对比

背景

传统数仓一般都是Hive+SparkSql作为代表,不过也包括Kylin等,而clickhouse是实时OLAP的代表,我们简单看下他们的对比

传统数仓和clickhouse对比

Hive+SparkSQL的传统数仓:

1.数据更新速度慢,由于传统数仓一般都是基于HDFS构建的,数据更新也就意味着把数据写入HDFS文件中,由于大部分表数据的结构化做的比较差,比如都是基于String表示,所以写入性能很差,意味着数据更新速度非常慢

2.数据查询速度,基于SparkSql进行数据查询虽然可以利用spark基于内存的特点提高查询速度,但是总体上说这个查询速度还是太慢,不能支持实时查询的要求,为了支持实时查询的需求,一般会引入Kylin,也就是提前预计算,但是提前预计算的问题在于维度爆炸导致的数据膨胀问题,而这些数据会导致存储的大量占用或者浪费。

基于clickhouse的实时分析

1.数据更新速度中等,在ck中我们可以通过批量插入数据的方式来达到比较好的数据插入速度,当然比起OLTP来说,更新速度还是不足,但是通过分批的方式,达到每秒几万的数据插入速度还是可以做到的。

2.数据查询速度很快,这是ck最擅长的地方,可以在秒级别计算出各种维度的数据聚合的分析结果,而不需要进行预计算,自然也不需要浪费存储

相关推荐
honder试试6 小时前
Springboot实现Clickhouse连接池的配置和接口查询
spring boot·后端·clickhouse
Mr_wilson_liu7 小时前
通过DBeaver22.0.5 连接数据库ck(clickhouse)、pg(postgres)
数据库·clickhouse
波波仔862 天前
clickhouse表存储引擎
clickhouse·表存储引擎
波波仔862 天前
clickhouse存储和分区
clickhouse·排序·分区
波波仔862 天前
clickhouse insert与update区别
clickhouse·insert·update
波波仔862 天前
clickhouse简介
数据库·clickhouse
深色風信子2 天前
ClickHouse 快速入门
clickhouse·列式存储
波波仔862 天前
行存储与列存储的区别
数据库·clickhouse·行存储·列储存
吃喝不愁霸王餐APP开发者2 天前
霸王餐用户行为埋点:Kafka Connect+ClickHouse实时OLAP分析
分布式·clickhouse·kafka
honder试试3 天前
客户端连接Clickhouse连不上解决方案
java·clickhouse