技术栈

Hive 中 sort by 和 order by 的区别

闭关苦炼内功2023-07-25 15:17

order by会对输入做全局排序,因此只有1个reducer(多个reducer无法保证全局有序),会导致当输入规模较大时,需要较长的计算时间。

sort by不是全局排序,其在数据进入 reducer 前完成排序。

因此,如果用 sort by 进行排序,并且设置 mapred.reduce.tasks>1, 则 sort by 只保证每个 reducer 的输出有序,不保证全局有序。


我们下期见,拜拜!

上一篇:【算法】递增序列
下一篇:华为认证HCIA-HCIP-HCIEdatacom题库解析+机构视频+实验
相关推荐
weixin_47233946
2 小时前
Doris查询Hive数据:实现高效跨数据源分析的实践指南
数据仓库·hive·hadoop
神奇侠2024
18 小时前
Hive SQL常见操作
hive·hadoop·sql
itachi-uchiha
1 天前
Docker部署Hive大数据组件
大数据·hive·docker
viperrrrrrrrrr7
1 天前
大数据学习(131)-Hive数据分析函数总结
大数据·hive·学习
qq_40841339
1 天前
spark 执行 hive sql数据丢失
hive·sql·spark
yt94832
2 天前
如何在IDE中通过Spark操作Hive
ide·hive·spark
viperrrrrrrrrr7
3 天前
大数据学习(129)-Hive数据分析
大数据·hive·学习
伍六星
3 天前
图片上传问题解决方案与实践
大数据·hive·hadoop
杨DaB
4 天前
【JavaWeb】Maven、Servlet、cookie/session
hive·servlet·maven
xx155802862xx
4 天前
hive聚合函数多行合并
数据仓库·hive·hadoop
热门推荐
01Coze扣子平台完整体验和实践(附国内和国际版对比)02KGG转MP3工具|非KGM文件|解密音频03YOLOv8入门 | 重要性能衡量指标、训练结果评价及分析及影响mAP的因素【发论文关注的指标】04海康Visionmaster-常见问题排查方法-启动阶段05从零安装 LLaMA-Factory 微调 Qwen 大模型成功及所有的坑06【SpeedAI科研小助手】2分钟极速解决知网维普重复率、AIGC率过高,一键全文降!文件格式不变,公式都保留的!07【无人机】无人机通信模块,无人机图数传模块的介绍,数传,图传,图传数传一体电台,08DeepSeek各版本说明与优缺点分析09VMware虚拟机安装Win7专业版保姆级教程(附镜像包)10CCF CSP 认证考试历年真题满分题解(所有前四题)