MySQL 中 DISTINCT 去重的核心注意事项详解

以下是 MySQL 中 DISTINCT 去重的核心注意事项详解


📌 DISTINCT 六大注意事项

1. 作用范围:所有 SELECT 字段
sql 复制代码
SELECT DISTINCT a, b FROM table;  -- 对(a,b)组合整体去重

⚠️ 误以为只作用于第一个字段

sql 复制代码
-- 错误理解:以为只对name去重
SELECT DISTINCT name, class FROM students;  

实际效果 :对 (name, class) 组合去重(如 ('张三','一班')('张三','二班') 算不同记录)


2. NULL 值的特殊处理
sql 复制代码
INSERT INTO students (name, class, score) VALUES (NULL, '三班', 90);

SELECT DISTINCT name FROM students;

结果

复制代码
+--------+
| name   |
+--------+
| 张三   |
| 李四   |
| 王五   |
| NULL   |  -- NULL被视为独立值保留
+--------+

3. 性能陷阱(大数据量)
sql 复制代码
-- 当表有百万行时慎用
SELECT DISTINCT text_column FROM huge_table; 

优化方案

sql 复制代码
-- 先通过WHERE缩小范围再去重
SELECT DISTINCT text_column 
FROM huge_table 
WHERE create_time > '2023-01-01';

-- 或添加索引(对text类型有限制)
ALTER TABLE huge_table ADD INDEX idx_text(text_column(20)); -- 前缀索引

4. 与 ORDER BY 的优先级
sql 复制代码
SELECT DISTINCT class 
FROM students 
ORDER BY score DESC; -- 错误!score不在SELECT中

正确写法

sql 复制代码
-- 方案1:排序字段必须在SELECT中
SELECT DISTINCT class, MAX(score) AS max_score 
FROM students 
GROUP BY class 
ORDER BY max_score DESC;

-- 方案2:子查询
SELECT DISTINCT class FROM (
  SELECT class, score FROM students ORDER BY score DESC
) AS tmp;

5. 聚合函数中的 DISTINCT
sql 复制代码
-- 统计不重复的班级数量
SELECT COUNT(DISTINCT class) FROM students; 

-- 错误用法(语法无效):
SELECT DISTINCT COUNT(class) FROM students; 

6. 不可用于部分字段计算
sql 复制代码
-- 尝试计算不同班级的平均分(错误!)
SELECT DISTINCT class, AVG(score) FROM students; 

正确做法 :必须配合 GROUP BY

sql 复制代码
SELECT class, AVG(score) 
FROM students 
GROUP BY class;  -- 这才是标准解法

⚠️ 高级注意点

7. 与 LIMIT 的配合问题
sql 复制代码
SELECT DISTINCT class FROM students LIMIT 2;

结果不确定性

返回的 2 条记录是随机 的(除非指定 ORDER BY),不同执行可能结果不同。


8. 临时表空间占用
  • DISTINCT 操作会在内存/磁盘创建临时表存储唯一值
  • 当去重字段总数据量超过 tmp_table_size 时,性能急剧下降

查看阈值

sql 复制代码
SHOW VARIABLES LIKE 'tmp_table_size'; -- 默认16MB

🔍 对比 GROUP BY 去重

特性 DISTINCT GROUP BY
是否可搭配聚合函数 ✅ (如SUM/AVG)
结果排序 无序 可按分组键排序
执行效率 简单场景更快 复杂聚合时更优
索引利用 可使用索引 必须用分组字段索引

最佳实践总结

  1. 小数据量 :直接 DISTINCT 简洁高效
  2. 需要聚合计算 :用 GROUP BY 替代
  3. 精确去重计数 :优先 COUNT(DISTINCT column)
  4. 排序需求 :必须显式写 ORDER BY
  5. 超大数据:先过滤再去重 + 合理索引

🚀 实战检验

订单表 orders 结构

sql 复制代码
CREATE TABLE orders (
    id INT PRIMARY KEY,
    product_id INT,
    user_id INT,
    amount DECIMAL(10,2),
    coupon_code VARCHAR(20) -- 允许为NULL
);

问题

如何高效获取使用过不同优惠券的用户ID列表(含NULL)?

sql 复制代码
👉 写出你的解决方案:
SELECT _______________________________
FROM orders;

答案(折叠)

sql 复制代码
-- 方案1:基础写法
SELECT DISTINCT user_id, coupon_code 
FROM orders 
WHERE coupon_code IS NOT NULL; -- 若需包含NULL则去掉WHERE

-- 方案2:大数据量优化(添加联合索引)
ALTER TABLE orders ADD INDEX idx_user_coupon(user_id, coupon_code);
SELECT DISTINCT user_id, coupon_code FROM orders;
相关推荐
想摆烂的不会研究的研究生40 分钟前
每日八股——Redis(1)
数据库·经验分享·redis·后端·缓存
码熔burning1 小时前
MySQL 8.0 新特性爆笑盘点:从青铜到王者的骚操作都在这儿了!(万字详解,建议收藏)
数据库·mysql
猫头虎1 小时前
2025最新OpenEuler系统安装MySQL的详细教程
linux·服务器·数据库·sql·mysql·macos·openeuler
哈库纳玛塔塔1 小时前
放弃 MyBatis,拥抱新一代 Java 数据访问库
java·开发语言·数据库·mybatis·orm·dbvisitor
@LetsTGBot搜索引擎机器人3 小时前
2025 Telegram 最新免费社工库机器人(LetsTG可[特殊字符])搭建指南(含 Python 脚本)
数据库·搜索引擎·机器人·开源·全文检索·facebook·twitter
计算机毕设VX:Fegn08953 小时前
计算机毕业设计|基于springboot + vue动物园管理系统(源码+数据库+文档)
数据库·vue.js·spring boot·后端·课程设计
冉冰学姐4 小时前
SSM校园排球联赛管理系统y513u(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面
数据库·ssm 框架应用·开题报告、
Tony Bai4 小时前
【分布式系统】03 复制(上):“权威中心”的秩序 —— 主从架构、一致性与权衡
大数据·数据库·分布式·架构
wb043072015 小时前
SQL工坊不只是一个ORM框架
数据库·sql
至善迎风5 小时前
Redis完全指南:从诞生到实战
数据库·redis·缓存