数仓问答篇(一)

数仓架构(即席查询)

总体来说,Hadoop架构在数据量较低的情况下,运行速度远不及MPP架构,但数据量一旦超过某个量级,Hadoop架构在吞吐量方面将非常有优势。有些大数据数据仓库产品也采用混合架构 ,以融合两者的优点,例如Impala、Presto等都是基于HDFS的MPP分析引擎,仅利用HDFS实现分区容错性,放弃MapReduce计算模型,在面向OLAP场景时可实现更好的性能,降低延迟。

MPP vs Hadoop架构 - 知乎

ClickHouse进行轻量化数仓搭建【计算引擎:Hive VS ClickHouse】

ClickHouse适合简单的DW之上的即席查询。而Spark由于其分布式特性,导致其任务启动时间很长,因此不适合实现即席查询,但是对于大数据量的join等复杂查询时具备非常大的优势。

ClickHouse的优化重点在如何提高单机的处理能力,而Spark的优化重点在于如何提高分布式的协作效率。

ClickHouse与Hive的区别,终于有人讲明白了-clickhouse与hive 区别

相关推荐
JKIT沐枫6 分钟前
PHP如何能获取网站上返回的数组指南
android·大数据
鸿乃江边鸟20 分钟前
Starrocks的Bitmap索引和Bloom filter索引以及全局字典
大数据·starrocks·sql
Hadoop_Liang1 小时前
openEuler24.03 LTS下安装Spark
大数据·分布式·spark·openeuler
ylatin1 小时前
Elasticsearch 索引 es
大数据·linux·elasticsearch
杰克逊的日记3 小时前
es的告警信息
大数据·elasticsearch·搜索引擎
Alpha汇股志5 小时前
英国股票实时API 对比:iTick的差异化优势解析
大数据·人工智能·开源·业界资讯
IT成长日记5 小时前
【Hadoop入门】Hadoop生态之Yarn简介
大数据·hadoop·分布式
煤烦恼6 小时前
spark core编程之行动算子、累加器、广播变量
大数据·分布式·spark
爱编程的王小美6 小时前
大数据专业学习路线
大数据·学习