Hive 中 sort by 和 order by 的区别

order by会对输入做全局排序,因此只有1个reducer(多个reducer无法保证全局有序),会导致当输入规模较大时,需要较长的计算时间。

sort by不是全局排序,其在数据进入 reducer 前完成排序。

因此,如果用 sort by 进行排序,并且设置 mapred.reduce.tasks>1, 则 sort by 只保证每个 reducer 的输出有序,不保证全局有序


我们下期见,拜拜!

相关推荐
都是蠢货20 小时前
Servlet的生命周期
hive·hadoop·servlet
yumgpkpm1 天前
接入Impala、Hive 的AI平台、开源大模型的国内厂商(星环、Doris、智谱AI、Qwen、DeepSeek、 腾讯混元、百川智能)
人工智能·hive·hadoop·zookeeper·spark·开源·hbase
笨蛋少年派2 天前
Sqoop数据迁移简介
hive·hadoop·sqoop
云闲不收2 天前
clickhouse hbase Hive 区别
hive·clickhouse·hbase
一颗宁檬不酸3 天前
《Java Web 期末项目分享:MVC+DBUtils+c3p0 玩转数据库增删改查》——第一弹
数据仓库·hive·hadoop
丸码3 天前
Servlet生命周期全解析
数据仓库·hive·hadoop
士心凡3 天前
Hive教程
数据仓库·hive·hadoop
清平乐的技术专栏3 天前
hive中with as用法及注意事项
数据仓库·hive·hadoop
larance4 天前
spark 支持hive
hive·spark
howard20054 天前
7.1 Hive内置函数
hive·内置函数