前言
今日和同事争论了片刻,背景是这样的, 有个客户写了一个SQL, 然后其中需要进行排序, 但是写了Order by, 但是排序没有生效. 然后我就尝试了下, 果然,在大数据平台里执行,是报错的. 但是在beeline执行, 查询结果是正常的, 所以就怀疑研发写了一个BUG, 于是就开始争论.
SQL很简单,简写为
sql
SELECT *
FROM dual
ORDER BY score_1 DESC, score_2 ASC;
是的,很简单,但是, 没有生效~ 研发说, Hive里数据写入的时候,是无序的, 我反对到,我们已经使用了order by进行排序, 排序后的数据是有序的. ... 嗯, 然后就争论了半天...
后面我查询了下SQL的执行计划, 对比问题SQL和成功SQL. 成功的让研发承认了~ 唉,又是转牛角尖的一天. 我错了.
本文将通过一个具体案例,深入剖析这一现象背后的原理,并给出正确的解决方案。
问题复现
假设我们有这样一张表dual,包含一个分组字段和两个分值字段。我们希望对查询结果按照score_1降序、score_2升序进行排序。
我们尝试了以下两种写法:
写法一(排序成功)
sql
SELECT *
FROM dual
ORDER BY score_1 DESC, score_2 ASC;
写法二(排序失败)
sql
SELECT *
FROM (
SELECT *
FROM dual
ORDER BY score_1 DESC, score_2 ASC
) t;
令人困惑的是,写法一能够正确排序,而写法二中的排序却完全失效 。结果集看起来像是随机顺序,仿佛ORDER BY被凭空抹去了一般。
为什么子查询中的ORDER BY会失效?
核心原因:优化器的自动消除
在Hive中,查询优化器遵循一条重要原则:子查询内部的ORDER BY如果不配合LIMIT使用,将被视为无效并自动消除。
这是因为从关系代数角度看,子查询返回的结果集本身是一个"多集合"(multiset),其内部顺序在传递给外层查询时不具有任何语义保证。Hive优化器为了提升执行效率,会主动裁剪掉这种"无用"的排序操作。
执行计划层面的差异
- 写法一 :
ORDER BY在最外层,Hive会启动一个或多个Reducer进行全局排序,确保最终输出有序。 - 写法二 :优化器识别出子查询中的
ORDER BY没有被外层使用(没有LIMIT,没有窗口函数等),直接在逻辑优化阶段将其移除。因此实际执行时,数据从子查询无序流出,外层SELECT *自然也就无序。
如何让子查询中的排序生效?
如果你确实需要在子查询中完成排序(例如:先排序再取行号、先排序再取Top N),解决方案非常简单:加上LIMIT子句。
正确示例
sql
SELECT *
FROM (
SELECT *
FROM dual
ORDER BY score_1 DESC, score_2 ASC
LIMIT 1000000 -- 设置一个足够大的上限
) t;
当Hive检测到ORDER BY与LIMIT同时存在时,会启用Top N排序优化。此时排序操作会在一个单独的Reducer中完成(或采用Map-side排序优化),并且排序后的结果会严格按照顺序传递给外层查询。
注意 :
LIMIT的值应该根据数据量合理设置,只要大于等于实际行数即可。如果无法预估行数,可以设置一个业务上不可能达到的大数,如LIMIT 2147483647。
最佳实践建议
为了避免此类问题,遵循以下原则可以大幅减少踩坑概率:
| 场景 | 推荐做法 |
|---|---|
| 需要对最终结果排序 | 将ORDER BY放在最外层 |
子查询中需要排序后参与计算(如窗口函数ROW_NUMBER()) |
ORDER BY直接写在窗口函数内,无需外层单独排序 |
| 子查询中需要排序后取Top N | 使用ORDER BY ... LIMIT N |
| 子查询中排序后还要做其他处理(如JOIN) | 考虑是否真的需要排序;如确实需要,加LIMIT并接受可能的多余开销 |
如何验证你的查询是否真的执行了排序?
使用EXPLAIN命令查看执行计划是一个好习惯:
sql
EXPLAIN
SELECT *
FROM (
SELECT *
FROM dual
ORDER BY score_1 DESC, score_2 ASC
) t;
在输出中搜索Order By关键字。如果子查询中的排序被优化掉,你将看不到对应的排序算子;而加上LIMIT后,应该能看到类似于Limit + Order By的执行阶段。
结语
Hive的设计哲学是优先保证大规模数据的高效处理,因此它对子查询中的ORDER BY采取"默认忽略"的策略。理解这一点后,下次遇到子查询排序失效的问题,你就知道该从哪里下手了。
记住这条规则:子查询内排序,务必带上LIMIT;全局要排序,请把ORDER BY放在最外层。