hive 排序

3.1 order by

order by用于对查询结果的全局排序,hive内部对于所有map task执行完成后,会将所有排序内容集中到一个reduce task上来进行排序。优点:能够实现全局有序,缺点:只能一个reduce排序操作,当数据量级大时,排序慢,并且有可能OOM失败。

3.2 sort by

用于对单个reduce局部排序,不保证全局有序,hive执行完map task后,如果mapred.reduce.tasks>1,则会将数据分配到不同的reduce上执行,通过sort by来对单个reduce task内部数据进行排序。优点:排序效率高,局部有有序,缺点:全局无序。

3.3 distribute by

distribute by用于将map task输出的结果,分散到不同的reduce task中,默认采用hash分配算法。经常于sort by进行联合使用。

3.4 cluster by

cluster by包含了distribute by操作和sort by操作,但只能是倒序排序,不能指定字段进行desc和asc排序。

相关推荐
Leo.yuan6 小时前
实时数据仓库是什么?数据仓库设计怎么做?
大数据·数据库·数据仓库·数据分析·spark
火龙谷10 小时前
【hadoop】Davinci数据可视化工具的安装部署
大数据·hadoop·分布式
£菜鸟也有梦11 小时前
从0到1,带你走进Flink的世界
大数据·hadoop·flink·spark
隰有游龙19 小时前
hadoop集群启动没有datanode解决
大数据·hadoop·分布式
viperrrrrrrrrr71 天前
大数据学习(129)-Hive数据分析
大数据·hive·学习
伍六星1 天前
图片上传问题解决方案与实践
大数据·hive·hadoop
后端码匠1 天前
Kafka 单机部署启动教程(适用于 Spark + Hadoop 环境)
hadoop·spark·kafka
TCChzp1 天前
Kafka入门-集群基础环境搭建(JDK/Hadoop 部署 + 虚拟机配置 + SSH 免密+Kafka安装启动)
java·hadoop·kafka
涤生大数据2 天前
Apache Doris 在数据仓库中的作用与应用实践
数据仓库·apache·doris
丸卜2 天前
Hadoop复习(九)
大数据·hadoop·分布式