技术栈

Hive 中 sort by 和 order by 的区别

闭关苦炼内功2023-07-25 15:17

order by会对输入做全局排序,因此只有1个reducer(多个reducer无法保证全局有序),会导致当输入规模较大时,需要较长的计算时间。

sort by不是全局排序,其在数据进入 reducer 前完成排序。

因此,如果用 sort by 进行排序,并且设置 mapred.reduce.tasks>1, 则 sort by 只保证每个 reducer 的输出有序,不保证全局有序。


我们下期见,拜拜!

上一篇:【算法】递增序列
下一篇:华为认证HCIA-HCIP-HCIEdatacom题库解析+机构视频+实验
相关推荐
笨蛋少年派
6 小时前
Sqoop数据迁移简介
hive·hadoop·sqoop
云闲不收
7 小时前
clickhouse hbase Hive 区别
hive·clickhouse·hbase
一颗宁檬不酸
1 天前
《Java Web 期末项目分享:MVC+DBUtils+c3p0 玩转数据库增删改查》——第一弹
数据仓库·hive·hadoop
丸码
1 天前
Servlet生命周期全解析
数据仓库·hive·hadoop
士心凡
1 天前
Hive教程
数据仓库·hive·hadoop
清平乐的技术专栏
2 天前
hive中with as用法及注意事项
数据仓库·hive·hadoop
larance
2 天前
spark 支持hive
hive·spark
howard2005
2 天前
7.1 Hive内置函数
hive·内置函数
larance
2 天前
HIVE 基础
数据仓库·hive·hadoop
跟着珅聪学java
3 天前
Logback日志配置教程
数据仓库·hive·hadoop
热门推荐
01GitHub 镜像站点02React CVE-2025-55182漏洞排查与修复指南03【超详细教程】手把手教你从微软官网免费下载Windows 10官方原版ISO镜像(2025最新版)04安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口(持续更新)05UV安装并设置国内源06BongoCat - 跨平台键盘猫动画工具07智能库存管理的需求预测模型:从业务痛点到落地代码的完整实践08本地部署阿里最新开源的Z-Image09Linux下V2Ray安装配置指南10论文阅读 - 深度学习端到端解决库存管理问题 - 有限时间范围内的多周期补货问题(Management Science)