order by 字段没有在 select distinct 中的问题

问题引入

主表 m（id 主键）去 join 两张子表 c1、c2。

因笛卡尔集的原因，可能导致 m 表的一条记录在查询结果集中会出现多次；而我只需要 select m 表的字段即可，因此用 distinct 去除重复的行。

使用 distinct 的同时，还需要 order by 排序，恰好排序的字段没有在 select distinct 中，因此可能会报错（以下的 SQL）。

可能会报错：查阅资料后了解到，order by 字段不在 select distinct 中，有些数据库是可以执行的。

sql 复制代码

select distinct m.id, m.name
from m
         left join c1 on m.id = c1.m_id
         left join c2 on m.id = c2.m_id
where 
...过滤条件...

order by m.update_date desc

我的处理是，将排序的字段加到 select distinct 中，就不会报错了。

但请注意，并非所有情况都是这样改 ，这里只是恰好适合，怎么改还需具体情况具体分析（详见后文的分析）。

sql 复制代码

select distinct m.id, m.name, m.update_date
from m
         left join c1 on m.id = c1.m_id
         left join c2 on m.id = c2.m_id
where 
...过滤条件...

order by m.update_date desc

原因

为什么 Distinct 与 Order By 同时使用时， order by 字段没有在 select distinct 中，会报错呢？

在 mysql 中，distinct 的执行顺序高于order by；

distinct 先执行，对查询的记录进行去重，会产生一张临时表；

之后执行 order by，对 distinct 产生的临时表做排序，得到结果。

因此，如果order by 字段没有在 select distinct 中，distinct 执行得到的临时表中根本没有 order by 字段，对临时表执行 order by 自然会报错。

解决

排序字段在重复行中唯一

如果去重前，重复的多行中，排序字段的值是唯一的 ；也就是对于重复的多行，排序字段的值始终都是相等的。

那这时的处理方法是，将排序字段加入到 select distinct 中参与去重。

为什么呢？

1）对于重复的多行，排序字段的值始终都是相等的。排序字段加入到 select distinct 中并不会影响到去重效果，因为 select distinct 新加入排序字段后，原本重复的多行、依然判断为是重复的。

2）select distinct 去重产生的临时表中，就会有排序字段，因此可以对去重得到的临时表进行排序。（临时表的解释见上文）

举个例子

见我在【问题引入】中举的例子，select distinct m.id, m.name 根据 id + name 去重，也就是如果结果中存在多行的 id + name 相同的话，只保留其中的一行；

而对于这样重复的多行，id 是一样的（id 主键，确保唯一），都对应着 m 表的同一条记录；

这里重复多行的 m.update_date（排序字段）也是相同的（来自 m 表的同一条记录的 update_date），因此将 m.update_date（排序字段）加入到 select distinct 中后，原本重复的多行、依然判断为重复的，不会影响到去重的效果。

所以，这里例子的处理方法为，将排序字段加入到 select distinct 中参与去重select distinct m.id, m.name, m.update_date。

排序字段在重复行中不唯一

如果去重前，重复的多行中，排序字段的值不是唯一的 ；也就是对于重复的多行，排序字段的值可能是不同的、也就是可能有多个值的情况。

那这时如果将排序字段直接加入到 select distinct 中，就不行了，因为这就会直接影响到原本的去重逻辑。

举个例子

举个例子，有学生分数表 student_class 如下。

id	name	class	points
1	张三	Chinese	85
2	张三	English	78
3	张三	Math	92
4	李四	Chinese	90
5	李四	English	88
6	李四	Math	75

sql 复制代码

select distinct name 
from student_class
where 过滤条件
order by points asc;

这里如果直接将 points 加到 select distinct 中select distinct name, points ，就改变了原本的去重逻辑。

原本根据 name 去重，结果只有 2 行，为所有的学生名字、并且确保唯一、不重复出现；

改为select distinct name, points 后，同一个 name 可能有多条记录、并且其中的 points 值可能不同，根据 name + points 做去重，结果中同一个 name 值可能就会出现多次，改变了原本的去重逻辑。

根据实际业务逻辑进行处理

对于【排序字段在重复行中不唯一】的这种情况，目前我好像没有遇到过，但我感觉就是根据实际的业务逻辑去进行处理就好。

比如，还是上面的表 student_class，我的需求是查出所有的学生（不重复），并且学生间按照单科最好成绩升序排。

SQL 如下：

sql 复制代码

select name 
from student_class 
group by name 
order by Max(points) asc;

group by Name根据 name 分组后可以实现 name 的去重 ；同时，分组后在 order by 中使用 Max 函数，来对每组中的最大分数（即个人单科最好成绩）进行排序，即实现了需求中的按照每个人单科最好成绩做排序。

如果有帮助的话，可以点个赞支持一下嘛🙏