传统数仓和clickhouse对比

背景

传统数仓一般都是Hive+SparkSql作为代表,不过也包括Kylin等,而clickhouse是实时OLAP的代表,我们简单看下他们的对比

传统数仓和clickhouse对比

Hive+SparkSQL的传统数仓:

1.数据更新速度慢,由于传统数仓一般都是基于HDFS构建的,数据更新也就意味着把数据写入HDFS文件中,由于大部分表数据的结构化做的比较差,比如都是基于String表示,所以写入性能很差,意味着数据更新速度非常慢

2.数据查询速度,基于SparkSql进行数据查询虽然可以利用spark基于内存的特点提高查询速度,但是总体上说这个查询速度还是太慢,不能支持实时查询的要求,为了支持实时查询的需求,一般会引入Kylin,也就是提前预计算,但是提前预计算的问题在于维度爆炸导致的数据膨胀问题,而这些数据会导致存储的大量占用或者浪费。

基于clickhouse的实时分析

1.数据更新速度中等,在ck中我们可以通过批量插入数据的方式来达到比较好的数据插入速度,当然比起OLTP来说,更新速度还是不足,但是通过分批的方式,达到每秒几万的数据插入速度还是可以做到的。

2.数据查询速度很快,这是ck最擅长的地方,可以在秒级别计算出各种维度的数据聚合的分析结果,而不需要进行预计算,自然也不需要浪费存储

相关推荐
Sais_Z3 天前
ClickHouse的学习与了解
数据库·clickhouse
风中凌乱6 天前
ClickHouse-Backup的安装与部署
clickhouse
风中凌乱6 天前
clickhouse集群的安装与部署
clickhouse
白眼黑刺猬6 天前
ClickHouse从入门到企业级实战全解析课程简介
clickhouse
chenglin01610 天前
ClickHouse、Doris、OpenSearch、Splunk、Solr系统化分析
clickhouse·solr·lucene
慕y27410 天前
Java学习第一百一十七部分——ClickHouse
java·学习·clickhouse
zuozewei15 天前
随笔之 ClickHouse 列式分析数据库安装注意事项及基准测试
数据库·clickhouse
牛牛木有坏心眼(大数据进阶)16 天前
linux系统离线环境安装clickhouse客户端
linux·clickhouse
许心月16 天前
Clickhouse#表记录转换为insert语句
clickhouse
许心月16 天前
Clickhouse#记录隐藏字段
clickhouse