hive 排序

3.1 order by

order by用于对查询结果的全局排序,hive内部对于所有map task执行完成后,会将所有排序内容集中到一个reduce task上来进行排序。优点:能够实现全局有序,缺点:只能一个reduce排序操作,当数据量级大时,排序慢,并且有可能OOM失败。

3.2 sort by

用于对单个reduce局部排序,不保证全局有序,hive执行完map task后,如果mapred.reduce.tasks>1,则会将数据分配到不同的reduce上执行,通过sort by来对单个reduce task内部数据进行排序。优点:排序效率高,局部有有序,缺点:全局无序。

3.3 distribute by

distribute by用于将map task输出的结果,分散到不同的reduce task中,默认采用hash分配算法。经常于sort by进行联合使用。

3.4 cluster by

cluster by包含了distribute by操作和sort by操作,但只能是倒序排序,不能指定字段进行desc和asc排序。

相关推荐
IvanCodes1 小时前
七、Hadoop 历史追踪、数据安全阀与 MapReduce初体验
大数据·hadoop·hdfs·mapreduce·yarn
爱编程的王小美1 小时前
本地MySQL连接hive
数据库·hive·mysql
麻芝汤圆6 小时前
深入探索 Spark RDD 行动算子:功能解析与实战应用
大数据·hadoop·分布式·spark·mapreduce
widder_9 小时前
大数据处理利器:Hadoop 入门指南
大数据·hadoop·分布式
chat2tomorrow17 小时前
如何使用 QuickAPI 推动医院数据共享 —— 基于数据仓库场景的实践
大数据·数据仓库·人工智能·医院·sql2api
火龙谷1 天前
【hadoop】案例:Sqoop迁移仓库数据
hive·hadoop·sqoop
my_realmy1 天前
基于 Spark 和 Hadoop 的空气质量数据分析与预测系统
hadoop·数据分析·spark
Agatha方艺璇1 天前
Hadoop MapReduce 图文代码讲解
大数据·hadoop·mapreduce
暮 夏1 天前
在登录页面上添加验证码
数据仓库·hive·hadoop