Hive-distribute by与group by,order by与sort by 的区别,cluster by

两个是完全不同的东西,group by的后续需要我们对数据进行聚合,distribute by只是把数据分到不同的reducer中去。

distribute by与group by 的区别

都是按key值划分数据 都使用reduce操作

唯一不同的是,distribute by只是单纯的分散数据,distribute by col -- 按照col列把数据分散到不同的reduce。而group by把相同key的数据聚集到一起,后续必须是聚合操作。

order by与sort by 的区别

order by是全局排序 sort by只是确保每个reduce上面输出的数据有序。如果只有一个reduce时,和order by作用一样。

cluster by

把有相同值的数据聚集到一起,并排序,效果等价于distribute by col sort by col.

即 cluster by col <==> distribute by col sort by col

转载链接

相关推荐
Leo.yuan7 分钟前
数据湖是什么?数据湖和数据仓库的区别是什么?
大数据·运维·数据仓库·人工智能·信息可视化
weixin_3077791314 小时前
Linux下GCC和C++实现统计Clickhouse数据仓库指定表中各字段的空值、空字符串或零值比例
linux·运维·c++·数据仓库·clickhouse
RestCloud19 小时前
如何通过ETLCloud实现跨系统数据同步?
数据库·数据仓库·mysql·etl·数据处理·数据同步·集成平台
行云流水行云流水21 小时前
数据库、数据仓库、数据中台、数据湖相关概念
数据库·数据仓库
IvanCodes21 小时前
七、Sqoop Job:简化与自动化数据迁移任务及免密执行
大数据·数据库·hadoop·sqoop
冬至喵喵1 天前
【hive】函数集锦:窗口函数、列转行、日期函数
大数据·数据仓库·hive·hadoop
Theodore_10222 天前
大数据(2) 大数据处理架构Hadoop
大数据·服务器·hadoop·分布式·ubuntu·架构
簌簌曌2 天前
CentOS7 + JDK8 虚拟机安装与 Hadoop + Spark 集群搭建实践
大数据·hadoop·spark
Theodore_10222 天前
大数据(1) 大数据概述
大数据·hadoop·数据分析·spark·hbase
IvanCodes2 天前
六、Sqoop 导出
大数据·hadoop·sqoop