Hive 中 sort by 和 order by 的区别

order by会对输入做全局排序,因此只有1个reducer(多个reducer无法保证全局有序),会导致当输入规模较大时,需要较长的计算时间。

sort by不是全局排序,其在数据进入 reducer 前完成排序。

因此,如果用 sort by 进行排序,并且设置 mapred.reduce.tasks>1, 则 sort by 只保证每个 reducer 的输出有序,不保证全局有序


我们下期见,拜拜!

相关推荐
viperrrrrrrrrr718 小时前
大数据学习(36)- Hive和YARN
大数据·hive·学习
重生之Java再爱我一次20 小时前
Hive部署
数据仓库·hive·hadoop
村口蹲点的阿三1 天前
Spark SQL 中对 Map 类型的操作函数
javascript·数据库·hive·sql·spark
雪芽蓝域zzs2 天前
JavaWeb开发(十五)实战-生鲜后台管理系统(二)注册、登录、记住密码
数据仓库·hive·hadoop
想做富婆2 天前
Hive: Hive的优缺点,使用方式,判断Hive是否启动(jps),元数据的存储,Hive和Hadoop的关系
数据仓库·hive·hadoop
村口蹲点的阿三2 天前
spark sql中对array数组类型操作函数列表
大数据·数据库·hive·sql·spark·database
大鳥2 天前
Apache Hive 聚合函数与 OVER 窗口函数:从基础到高级应用
hive·hadoop·apache
青云交3 天前
大数据新视界 -- Hive 数据倾斜实战案例分析(2 - 16 - 6)
大数据·hive·数据分析·解决方案·数据倾斜·电商平台·实战案例·sql 优化
青云交3 天前
大数据新视界 -- Hive 多租户资源分配与隔离(2 - 16 - 16)
大数据·hive·资源隔离·多租户·资源分配·监控评估·资源隔离机制·监控指标体系
对许4 天前
Apache Hive3定位表并更改其位置
hive·cdp