SQL 去重效率天差地别？GROUP BY 和 DISTINCT 的底层厮杀

GROUP BY 和 DISTINCT 是 SQL 中用于去重的两种方式，但它们的核心用途、底层原理和性能表现差异显著。以下是详细对比：

分组阶段 ：
- 按照 GROUP BY 指定的字段对结果集进行排序（如果未使用索引）。
- 将相同值的行放入同一个组中。
聚合阶段 ：
- 对每个组应用聚合函数（如 SUM、COUNT），生成单行结果。
索引优化 ：
- 如果 GROUP BY 字段有索引，数据库会直接利用索引的有序性快速分组（避免排序）。
- 例如，MySQL 的 filesort 操作可被索引避免。

排序/哈希去重 ：
- 排序法：对结果集按所有选择的字段排序，相邻重复行只保留一行。
- 哈希法：构建哈希表，遍历结果集时丢弃哈希冲突的重复行。
索引优化 ：
- 如果 SELECT 的字段包含索引，数据库直接扫描索引（无需回表）。
- 例如，SELECT DISTINCT email 可通过 email 索引快速去重。

假设有表 orders：

sql 复制代码

SELECT user_id, SUM(amount)  -- 必须用 GROUP BY
FROM orders
GROUP BY user_id;

`user_id`	`SUM(amount)`
1	300
2	150

sql 复制代码

SELECT DISTINCT product;  -- 简洁写法
-- 等价于（但性能更差）：
SELECT product FROM orders GROUP BY product;

`product`
A
B

NULL 处理：
- DISTINCT 将所有 NULL 视为相同值（只保留一个）。
- GROUP BY 同样将 NULL 分为一组（如果字段允许为 NULL）。
多字段组合：
- DISTINCT col1, col2 去重的是两个字段的组合值。
- GROUP BY col1, col2 对组合字段分组，需搭配聚合函数。
与 ORDER BY 的联用：
- DISTINCT 先去重，再按结果排序。
- GROUP BY 先分组，聚合后按结果排序（索引可优化排序）。