hive 排序

3.1 order by

order by用于对查询结果的全局排序,hive内部对于所有map task执行完成后,会将所有排序内容集中到一个reduce task上来进行排序。优点:能够实现全局有序,缺点:只能一个reduce排序操作,当数据量级大时,排序慢,并且有可能OOM失败。

3.2 sort by

用于对单个reduce局部排序,不保证全局有序,hive执行完map task后,如果mapred.reduce.tasks>1,则会将数据分配到不同的reduce上执行,通过sort by来对单个reduce task内部数据进行排序。优点:排序效率高,局部有有序,缺点:全局无序。

3.3 distribute by

distribute by用于将map task输出的结果,分散到不同的reduce task中,默认采用hash分配算法。经常于sort by进行联合使用。

3.4 cluster by

cluster by包含了distribute by操作和sort by操作,但只能是倒序排序,不能指定字段进行desc和asc排序。

相关推荐
mizuhokaga1 小时前
Hive parquet表通过csv文件导入数据
数据仓库·hive·hadoop
全栈弟弟1 小时前
高级大数据开发协会
大数据·数据仓库·hadoop·flink·spark
APItesterCris2 小时前
API 接入前的安全防线:注意事项全梳理
大数据·运维·服务器·开发语言·数据仓库·安全
lzhlizihang3 小时前
Hadoop的一些高频面试题 --- hdfs、mapreduce以及yarn的面试题
大数据·hadoop·hdfs·mapreduce·面试题·yarn
楠奕3 小时前
linux hadoop-3.3.6 hbase-2.5.7
linux·hadoop·hbase
学习3人组3 小时前
Hadoop分布式集群配置
大数据·hadoop·分布式
赵渝强老师6 小时前
【赵渝强老师】基于ZooKeeper实现Hadoop HA
大数据·hadoop·分布式·zookeeper
Data 31714 小时前
经典sql题(七)查找直播间最大在线人数
大数据·数据库·数据仓库·sql
Data 31718 小时前
经典sql题(二)求连续登录最多天数用户
大数据·数据库·数据仓库·sql·mysql
小王是个弟弟19 小时前
HQL-计算不一样的 MUV
数据库·hive·sql