hive 排序

3.1 order by

order by用于对查询结果的全局排序,hive内部对于所有map task执行完成后,会将所有排序内容集中到一个reduce task上来进行排序。优点:能够实现全局有序,缺点:只能一个reduce排序操作,当数据量级大时,排序慢,并且有可能OOM失败。

3.2 sort by

用于对单个reduce局部排序,不保证全局有序,hive执行完map task后,如果mapred.reduce.tasks>1,则会将数据分配到不同的reduce上执行,通过sort by来对单个reduce task内部数据进行排序。优点:排序效率高,局部有有序,缺点:全局无序。

3.3 distribute by

distribute by用于将map task输出的结果,分散到不同的reduce task中,默认采用hash分配算法。经常于sort by进行联合使用。

3.4 cluster by

cluster by包含了distribute by操作和sort by操作,但只能是倒序排序,不能指定字段进行desc和asc排序。

相关推荐
重生之Java再爱我一次3 小时前
Hive部署
数据仓库·hive·hadoop
想做富婆3 小时前
大数据,Hadoop,HDFS的简单介绍
大数据·hadoop·分布式
WorkAgent4 小时前
windows下本地部署安装hadoop+scala+spark-【不需要虚拟机】
hadoop·spark·scala
JZC_xiaozhong5 小时前
低空经济中的数据孤岛难题,KPaaS如何破局?
大数据·运维·数据仓库·安全·ci/cd·数据分析·数据库管理员
村口蹲点的阿三15 小时前
Spark SQL 中对 Map 类型的操作函数
javascript·数据库·hive·sql·spark
重生之Java再爱我一次17 小时前
Hadoop集群搭建
大数据·hadoop·分布式
中东大鹅18 小时前
MongoDB的索引与聚合
数据库·hadoop·分布式·mongodb
狮歌~资深攻城狮20 小时前
TiDB出现后,大数据技术的未来方向
数据库·数据仓库·分布式·数据分析·tidb
狮歌~资深攻城狮20 小时前
TiDB 和信创:如何推动国产化数据库的发展?
数据库·数据仓库·分布式·数据分析·tidb