hive 排序

3.1 order by

order by用于对查询结果的全局排序,hive内部对于所有map task执行完成后,会将所有排序内容集中到一个reduce task上来进行排序。优点:能够实现全局有序,缺点:只能一个reduce排序操作,当数据量级大时,排序慢,并且有可能OOM失败。

3.2 sort by

用于对单个reduce局部排序,不保证全局有序,hive执行完map task后,如果mapred.reduce.tasks>1,则会将数据分配到不同的reduce上执行,通过sort by来对单个reduce task内部数据进行排序。优点:排序效率高,局部有有序,缺点:全局无序。

3.3 distribute by

distribute by用于将map task输出的结果,分散到不同的reduce task中,默认采用hash分配算法。经常于sort by进行联合使用。

3.4 cluster by

cluster by包含了distribute by操作和sort by操作,但只能是倒序排序,不能指定字段进行desc和asc排序。

相关推荐
Francek Chen8 小时前
【大数据基础】大数据处理架构Hadoop:01 Hadoop概述
大数据·hadoop·分布式·架构
無森~15 小时前
实战:单词数量统计案例
大数据·hadoop
梦痕长情15 小时前
记一次hiveSQL 查询无数据,String类型的字段自动转化为int类型的经历和解决方案
hive
weixin_4624462317 小时前
Hadoop / YARN / Hive 运维操作教程
运维·hive·hadoop
重生之绝世牛码17 小时前
Linux软件安装 —— Hadoop高可用安装(集成Zookeeper)
大数据·linux·运维·hadoop·zookeeper·软件安装·hadoop高可用
roman_日积跬步-终至千里17 小时前
【Hadoop】HDFS Router-based Federation:解决 NameNode 扩展性问题的联邦方案
大数据·hadoop·hdfs
無森~18 小时前
实战:温度分析
大数据·hadoop·mapreduce
重生之绝世牛码18 小时前
Linux软件安装 —— Flink集群安装(集成Zookeeper、Hadoop高可用)
大数据·linux·运维·hadoop·zookeeper·flink·软件安装
無森~2 天前
Hive概述
数据仓库·hive·hadoop
無森~2 天前
Hive下载与安装
数据仓库·hive·hadoop