Hive 中 sort by 和 order by 的区别

order by会对输入做全局排序,因此只有1个reducer(多个reducer无法保证全局有序),会导致当输入规模较大时,需要较长的计算时间。

sort by不是全局排序,其在数据进入 reducer 前完成排序。

因此,如果用 sort by 进行排序,并且设置 mapred.reduce.tasks>1, 则 sort by 只保证每个 reducer 的输出有序,不保证全局有序


我们下期见,拜拜!

相关推荐
心止水j6 小时前
数据库问题
数据仓库·hive·hadoop
yumgpkpm8 小时前
网易数帆EasyData使用Cloudera CDP、CMP(华为鲲鹏版)作为底座的AI功能操作步骤
大数据·hive·hadoop·深度学习·kafka·transformer·cloudera
yumgpkpm8 小时前
网易数帆EasyData使用Cloudera CDP、CMP(华为鲲鹏版)作为底座的ChatBI方案
大数据·hive·hadoop·华为·zookeeper·kafka·cloudera
sunxunyong9 小时前
hive小文件合并textfile&parquet
数据仓库·hive·hadoop
凌冰_1 天前
Thymeleaf 3.1‌版本的内置对象禁用
数据仓库·hive·hadoop
linweidong1 天前
hive sql行转列,列转行sql的实例
hive·hadoop·sql
走遍西兰花.jpg2 天前
sqoop的导入导出
hive·hadoop·sqoop
LF3_2 天前
Centos7,搭建Hive3.1.3数据库
大数据·数据库·hive
是阿威啊3 天前
【用户行为归因分析项目】- 【企业级项目开发第二站】项目通用代码开发
大数据·服务器·数据仓库·hive·hadoop
大千AI助手3 天前
HiveOperator 中 hql 模板路径解析失败的原因分析
hive·python·任务调度·airflow·模版·大千ai助手·hiveoperator