Hive 中 sort by 和 order by 的区别

order by会对输入做全局排序,因此只有1个reducer(多个reducer无法保证全局有序),会导致当输入规模较大时,需要较长的计算时间。

sort by不是全局排序,其在数据进入 reducer 前完成排序。

因此,如果用 sort by 进行排序,并且设置 mapred.reduce.tasks>1, 则 sort by 只保证每个 reducer 的输出有序,不保证全局有序


我们下期见,拜拜!

相关推荐
howard20056 小时前
6.5 Hive查询优化:执行计划与性能初探
hive·性能优化·执行计划
大数据007 小时前
SCD缓慢变化维Type1-Type3
hive·scd
張萠飛1 天前
hive date_format函数有性能瓶颈,有个获取时区的逻辑影响性能,具体原因分析
数据仓库·hive·hadoop
2509_940880221 天前
Spring Boot 从 2.7.x 升级到 3.3注意事项
数据库·hive·spring boot
chde2Wang1 天前
datagrip访问远程hive库
hive
howard20051 天前
7.2 Hive自定义函数实战
hive·自定义函数·udf
g***78911 天前
从0到1部署Tomcat和添加servlet(IDEA2024最新版详细教程)
hive·servlet·tomcat
7***68432 天前
Spring Boot 从 2.7.x 升级到 3.3注意事项
数据库·hive·spring boot
笨蛋少年派2 天前
跨境电商大数据分析系统案例:③建模、分析与暂时收尾
hive·数据挖掘·数据分析
yumgpkpm2 天前
腾讯TBDS和Cloud Data AI CMP 比较的缺陷在哪里?
hive·hadoop·elasticsearch·zookeeper·spark·kafka·hbase