Hive 中 sort by 和 order by 的区别

order by会对输入做全局排序,因此只有1个reducer(多个reducer无法保证全局有序),会导致当输入规模较大时,需要较长的计算时间。

sort by不是全局排序,其在数据进入 reducer 前完成排序。

因此,如果用 sort by 进行排序,并且设置 mapred.reduce.tasks>1, 则 sort by 只保证每个 reducer 的输出有序,不保证全局有序


我们下期见,拜拜!

相关推荐
是阿威啊6 小时前
【第六站】测试本地项目连接虚拟机上的大数据集群
大数据·linux·hive·hadoop·spark·yarn
青木川崎7 小时前
hive实战
数据仓库·hive·hadoop
是阿威啊7 小时前
【第五站】集群组件一键启动/关闭脚本(Hadoop/YARN + Hive + Spark)
linux·运维·hive·hadoop·spark
青木川崎7 小时前
大数据技术之hive
大数据·hive·hadoop
是阿威啊8 小时前
【第三站】本地虚拟机部署hive集群
linux·数据仓库·hive·hadoop·分布式
喻师傅3 天前
Hive 中 NULL 值在逻辑判断中的“陷阱”(踩坑复盘)
数据仓库·hive·hadoop
Hello.Reader5 天前
Flink SQL 的 LOAD MODULE 深度实战——加载 Hive 模块、理解模块发现与常见坑
hive·sql·flink
howard20056 天前
Hive实战任务 - 9.1 实现词频统计
hive·词频统计
满目山河•6 天前
二、复制三台虚拟机
hive·hadoop·hbase
howard20056 天前
Hive实战任务 - 9.3 实现学生信息排序和统计
hive·排序·汇总·学生信息