Hive 中 sort by 和 order by 的区别

order by会对输入做全局排序,因此只有1个reducer(多个reducer无法保证全局有序),会导致当输入规模较大时,需要较长的计算时间。

sort by不是全局排序,其在数据进入 reducer 前完成排序。

因此,如果用 sort by 进行排序,并且设置 mapred.reduce.tasks>1, 则 sort by 只保证每个 reducer 的输出有序,不保证全局有序


我们下期见,拜拜!

相关推荐
白日与明月1 天前
Hive 中 UNION 与 UNION ALL
hive
白日与明月1 天前
Hive 大表 Join 优化:从策略选择到倾斜处理
数据仓库·hive·hadoop
Java程序员威哥1 天前
SpringBoot2.x与3.x自动配置注册差异深度解析:从原理到迁移实战
java·大数据·开发语言·hive·hadoop·spring boot·后端
王九思1 天前
SQL网关 Kyuubi 系列——基本介绍
数据仓库·hive·hadoop·sql·spark
白日与明月1 天前
面试备考-Hive窗口函数
hive·面试·职场和发展
白日与明月1 天前
Hive中的大批量关键词匹配场景优化
数据仓库·hive·hadoop
阿杜杜不是阿木木1 天前
基于 Flink 的 HomeAssistant 传感器数据从 Kafka 到 Hive 的存储方案
hive·flink·kafka
大鳥2 天前
企业级 Hive on Spark 开发规范
hive·hadoop·spark
Hello.Reader2 天前
Flink × Hive HiveCatalog 一键接入元数据,Flink 直接读写 Hive 表
大数据·hive·flink
Hello.Reader2 天前
Flink + Hive Functions HiveModule、原生聚合加速、复用 Hive UDF/UDTF/UDAF
大数据·hive·flink