技术栈

Hive 中 sort by 和 order by 的区别

闭关苦炼内功2023-07-25 15:17

order by会对输入做全局排序,因此只有1个reducer(多个reducer无法保证全局有序),会导致当输入规模较大时,需要较长的计算时间。

sort by不是全局排序,其在数据进入 reducer 前完成排序。

因此,如果用 sort by 进行排序,并且设置 mapred.reduce.tasks>1, 则 sort by 只保证每个 reducer 的输出有序,不保证全局有序。


我们下期见,拜拜!

上一篇:【算法】递增序列
下一篇:华为认证HCIA-HCIP-HCIEdatacom题库解析+机构视频+实验
相关推荐
钊兵
10 小时前
hivesql是什么数据库?
大数据·hive
IvanCodes
2 天前
九、HQL DQL七大查询子句
大数据·数据库·hive
火龙谷
2 天前
【hadoop】sqoop案例 hive->mysql
hive·hadoop·sqoop
IvanCodes
3 天前
六、Hive 分桶
大数据·hive
IvanCodes
3 天前
七、深入 Hive DDL:管理表、分区与洞察元数据
数据仓库·hive·hadoop
若兰幽竹
3 天前
【HBase整合Hive】HBase-1.4.8整合Hive-2.3.3过程
数据库·hive·hbase
多多*
5 天前
Java反射 八股版
java·开发语言·hive·python·sql·log4j·mybatis
yyf960126
5 天前
hiveserver2与beeline进行远程连接hive配置及遇到的问题
数据仓库·hive
yyf960126
5 天前
hive在配置文件中添加了hive.metastore.uris之后进入hive输入命令报错
hive
jiedaodezhuti
5 天前
hive两个表不同数据类型字段关联引发的数据倾斜
数据仓库·hive·hadoop
热门推荐
01KGG转MP3工具|非KGM文件|解密音频02YOLOv8入门 | 重要性能衡量指标、训练结果评价及分析及影响mAP的因素【发论文关注的指标】03从零安装 LLaMA-Factory 微调 Qwen 大模型成功及所有的坑04【SpeedAI科研小助手】2分钟极速解决知网维普重复率、AIGC率过高,一键全文降!文件格式不变,公式都保留的!05DeepSeek各版本说明与优缺点分析06Coze扣子平台完整体验和实践(附国内和国际版对比)07YOLOv5改进 | 添加CA注意力机制 + 增加预测层 + 更换损失函数之GIoU08苍穹外卖面试总结09yolov8,yolo11,yolo12 服务器训练到部署全流程 笔记10第一届 “帕鲁杯“ writeup