Hive 中 sort by 和 order by 的区别

order by会对输入做全局排序,因此只有1个reducer(多个reducer无法保证全局有序),会导致当输入规模较大时,需要较长的计算时间。

sort by不是全局排序,其在数据进入 reducer 前完成排序。

因此,如果用 sort by 进行排序,并且设置 mapred.reduce.tasks>1, 则 sort by 只保证每个 reducer 的输出有序,不保证全局有序


我们下期见,拜拜!

相关推荐
yumgpkpm23 分钟前
Hadoop 与AI大模型实战:从Hive、Impala(Cloudera CDH、CDP)海量数据到 AI 决策的落地方法
arm开发·人工智能·hive·zookeeper·flink·kafka·cloudera
码以致用21 小时前
Hive笔记
hive·hadoop·笔记
路边草随风21 小时前
通过hive元数据库查询表信息
大数据·数据库·hive·hadoop
Agatha方艺璇1 天前
安装Hive初始化MySQL报错 (ZLjava/lang/String;Ljava/lang/0bject; )V
hive·mysql
yumgpkpm1 天前
Hadoop、Cloudera CDH没有消亡,它是大数据的未来
人工智能·hive·hadoop·spark·kafka·开源·hbase
秦JaccLink1 天前
Hive导入数据的五种方式及其应用
数据仓库·hive·hadoop
酸奶不吃鱼。2 天前
hive中的函数
数据仓库·hive·hadoop
clownAdam2 天前
Hive数仓分层架构必要性分析
hive·hadoop·架构
大叔_爱编程3 天前
基于大数据的短视频用户兴趣分析-hive+django+spider
大数据·hive·django·毕业设计·源码·课程设计·spider
云闲不收3 天前
hive和hadoop如何部署
数据仓库·hive·hadoop