hive中的四种排序类型

BabyFish132024-12-29 11:49

ASC（ascend）: 升序（默认）
DESC（descend）: 降序

**注意：**只有一个 Reducer,即使我们在设置set reducer的数量为多个,但是在执行了order by语句之后,当前此次的运算还是只有1个reducer,因为order by要做的是全局分区。(开窗函数内是分区内排序，不在此问题)

验证：

sql 复制代码

set mapreduce.job.reduces=3;
select * from stu_scores order by math;

**总结：**order by 语句的运行效率较低，一般要配合limit 使用。

设置reduce 的job数为3

sql 复制代码

set mapreduce.job.reduces=3;

查看设置的reduce 的job数量

sql 复制代码

set mapreduce.job.reduces

测试sort by：

sql 复制代码

select * from stu_scores sort by math;

**备注：**在3个reduce job中分别进行排序。

有些场景我们需要控制某些特定行应该到同一reducer，做一些聚集操作。

distribute by 类似 MR 中 partition（自定义分区），进行分区，结合 sort by 使用。

设置reduce 的job数为3

sql 复制代码

set mapreduce.job.reduces=3;

查看设置的reduce 的job数量

sql 复制代码

set mapreduce.job.reduces

测试 distribute by....sort by

按照stu_id分区，分区内使用math排序

sql 复制代码

select * from stu_scores distribute by stu_id sort by math;

分区逻辑：根据distribute by 后的字段hash码与reduce 的个数进行模数后,决定分区路由。

当 distribute by 和 sort by 字段相同时，可以使用 cluster by 方式。但是排序只能是升序排序，不能指定排序规则为 ASC 或者 DESC。

sql 复制代码

select * from stu_scores cluster by math;
select * from stu_scores distribute by math sort by math;

总结： cluster by 等价于distribute by 和 sort by 字段的升序排序。