问题引入
主表 m(id 主键) 去 join 两张子表 c1、c2。
因笛卡尔集的原因,可能导致 m 表的一条记录在查询结果集中会出现多次;而我只需要 select m 表的字段即可,因此用 distinct 去除重复的行。
使用 distinct 的同时,还需要 order by 排序,恰好排序的字段没有在 select distinct 中,因此可能会报错(以下的 SQL)。
可能会报错:查阅资料后了解到,order by 字段不在 select distinct 中,有些数据库是可以执行的。
sql
select distinct m.id, m.name
from m
left join c1 on m.id = c1.m_id
left join c2 on m.id = c2.m_id
where
...过滤条件...
order by m.update_date desc
我的处理是,将排序的字段加到 select distinct 中,就不会报错了。
但请注意,并非所有情况都是这样改 ,这里只是恰好适合,怎么改还需具体情况具体分析(详见后文的分析
)。
sql
select distinct m.id, m.name, m.update_date
from m
left join c1 on m.id = c1.m_id
left join c2 on m.id = c2.m_id
where
...过滤条件...
order by m.update_date desc
原因
为什么 Distinct 与 Order By 同时使用时, order by 字段没有在 select distinct 中,会报错呢?
在 mysql 中,distinct 的执行顺序高于order by;
distinct 先执行,对查询的记录进行去重,会产生一张临时表;
之后执行 order by,对 distinct 产生的临时表做排序,得到结果。
因此,如果order by 字段没有在 select distinct 中,distinct 执行得到的临时表中根本没有 order by 字段,对临时表执行 order by 自然会报错。
解决
排序字段在重复行中唯一
如果去重前,重复的多行中,排序字段的值是唯一的 ;也就是对于重复的多行,排序字段的值始终都是相等的。
那这时的处理方法是,将排序字段加入到 select distinct 中参与去重。
为什么呢?
1)对于重复的多行,排序字段的值始终都是相等的。排序字段加入到 select distinct 中并不会影响到去重效果,因为 select distinct 新加入排序字段后,原本重复的多行、依然判断为是重复的。
2)select distinct 去重产生的临时表中,就会有排序字段,因此可以对去重得到的临时表进行排序。(临时表的解释见上文)
举个例子
见我在【问题引入】中举的例子,select distinct m.id, m.name
根据 id + name 去重,也就是如果结果中存在多行的 id + name 相同的话,只保留其中的一行;
而对于这样重复的多行,id 是一样的(id 主键,确保唯一),都对应着 m 表的同一条记录;
这里重复多行的 m.update_date(排序字段)也是相同的(来自 m 表的同一条记录的 update_date),因此将 m.update_date(排序字段) 加入到 select distinct 中后,原本重复的多行、依然判断为重复的,不会影响到去重的效果。
所以,这里例子的处理方法为,将排序字段加入到 select distinct 中参与去重select distinct m.id, m.name, m.update_date
。
排序字段在重复行中不唯一
如果去重前,重复的多行中,排序字段的值不是唯一的 ;也就是对于重复的多行,排序字段的值可能是不同的、也就是可能有多个值的情况。
那这时如果将排序字段直接加入到 select distinct 中,就不行了,因为这就会直接影响到 原本的去重逻辑。
举个例子
举个例子,有 学生分数表 student_class 如下。
id | name | class | points |
---|---|---|---|
1 | 张三 | Chinese | 85 |
2 | 张三 | English | 78 |
3 | 张三 | Math | 92 |
4 | 李四 | Chinese | 90 |
5 | 李四 | English | 88 |
6 | 李四 | Math | 75 |
sql
select distinct name
from student_class
where 过滤条件
order by points asc;
这里如果直接将 points 加到 select distinct 中select distinct name, points
,就改变了原本的去重逻辑。
原本根据 name 去重,结果只有 2 行,为所有的学生名字、并且确保唯一、不重复出现;
改为select distinct name, points
后,同一个 name 可能有多条记录、并且其中的 points 值可能不同,根据 name + points 做去重,结果中同一个 name 值可能就会出现多次,改变了原本的去重逻辑。
根据实际业务逻辑进行处理
对于【排序字段在重复行中不唯一】的这种情况,目前我好像没有遇到过,但我感觉就是根据实际的业务逻辑去进行处理就好。
比如,还是上面的表 student_class,我的需求是 查出所有的学生(不重复),并且学生间按照单科最好成绩 升序排。
SQL 如下:
sql
select name
from student_class
group by name
order by Max(points) asc;
group by Name
根据 name 分组后可以实现 name 的去重 ;同时,分组后 在 order by 中使用 Max 函数,来对每组中的最大分数(即个人单科最好成绩)进行排序,即实现了需求中的 按照每个人单科最好成绩 做排序。
如果有帮助的话,可以点个赞支持一下嘛
🙏