Hive 中 sort by 和 order by 的区别

order by会对输入做全局排序,因此只有1个reducer(多个reducer无法保证全局有序),会导致当输入规模较大时,需要较长的计算时间。

sort by不是全局排序,其在数据进入 reducer 前完成排序。

因此,如果用 sort by 进行排序,并且设置 mapred.reduce.tasks>1, 则 sort by 只保证每个 reducer 的输出有序,不保证全局有序


我们下期见,拜拜!

相关推荐
工作中的程序员3 天前
hive sql优化基础
hive·sql
风跟我说过她3 天前
Sqoop的安装与配置
hive·hadoop·经验分享·centos·hbase·sqoop
DashingGuy8 天前
hive、spark任务报错或者异常怎么排查以及定位哪段sql
hive·sql·spark
秦JaccLink11 天前
Hive语句执行顺序详解
数据仓库·hive·hadoop
AI算力网络与通信11 天前
大数据领域 Hive 数据仓库搭建实战
大数据·数据仓库·hive·ai
工业互联网专业14 天前
基于大数据hive的银行信用卡用户的数仓系统的设计与实现_django
大数据·hive·django·毕业设计·源码·课程设计·数仓系统
顧棟14 天前
【Hive实战】hive-testbench的调研
数据仓库·hive·hadoop
emmm...15 天前
hive连不上,报错9000拒绝连接
数据仓库·hive·hadoop
野老杂谈15 天前
Hive SQL 中的时间戳转换详解
hive·hadoop·sql
大数据CLUB15 天前
基于hive和mapreduce的地铁数据分析及可视化_hive作为数据库
大数据·hive·hadoop·分布式·数据分析·mapreduce