MySQL IN和NOT IN的效率对比,该用哪一个

例子

IN 2000 和 NOT IN 200 的对比

你好!作为一个和MySQL打过多年交道的"老司机",我非常乐意用最通俗的方式帮你解开这个疑惑。

先抛结论:在绝大多数情况下,IN 2000个元素 远比 NOT IN 200个元素 高效!

虽然2000看起来比200大了很多,但在数据库的世界里,"找存在"和"找不存在"的底层逻辑是完全不同的。这就好比"在人群中找2000个熟人"和"在一个200人的小团体里排除所有人找陌生人",前者的难度远远小于后者。

我们分三个维度来扒开它的底层逻辑:

维度一:执行逻辑的本质差异(相交 vs 求差)

  1. IN 是"找交集"(正向查找)
    IN (1, 2, ..., 2000) 的逻辑是:"把满足这2000个条件的数据给我找出来"。

数据库在扫描表的时候,每读到一行数据,只要它的值在这2000个元素里,立刻命中,加入结果集。

这就像你拿着一份2000人的VIP名单在门口检票,来一个人对一下名单,是VIP就放行,非常直接。

  1. NOT IN 是"求差集"(反向排除)
    NOT IN (1, 2, ..., 200) 的逻辑是:"除了这200个人,其他人全给我找出来"。

数据库在扫描表时,每读到一行数据,必须确认它绝对不在这200个元素里,才能加入结果集。

更致命的是,NOT IN 天生无法高效利用索引。因为索引是根据B+树排好序的,适合"精准找人",而不适合"排除一批人后找剩下的人"。

维度二:为什么 IN 2000 不慢?

很多人觉得2000个元素太多,会不会把SQL撑爆?其实不必太担心:

优化器会变身: MySQL很聪明,当 IN 列表里的元素不超过一定阈值时,它会把 IN 优化成 OR 连接;当元素较多时,它会自动把 IN 列表转换成一张临时内存表,然后和你的主表做哈希连接或者嵌套循环连接。这种临时表的查找速度是极快的。

索引完美生效: 如果查询字段有索引,MySQL会拿着这2000个值,直接在B+树的叶子节点上"定点狙击",范围再大也只是多扫描几次索引而已,效率依然很高。

维度三:为什么 NOT IN 200 很慢且危险?

NOT IN 不仅是效率问题,它还隐藏着巨大的"坑":

索引失效的幕后黑手: 假设你在 id 字段上建了索引。WHERE id IN (1,2...) 会走索引;但 WHERE id NOT IN (1,2...) 往往会导致优化器放弃索引,直接全表扫描!因为全表扫描可能比反复在B+树上跳跃找"不在这200个里的数据"成本更低。

NULL 的终极陷阱(重中之重): 如果 NOT IN 的那200个元素里,哪怕只有一个值是 NULL,整个查询将返回空结果!

为什么?逻辑上,id NOT IN (1, 2, NULL) 等价于 id != 1 AND id != 2 AND id != NULL。

在SQL里,任何值和 NULL 比较的结果都是 Unknown(未知),而 True AND Unknown 的结果还是 Unknown(相当于False)。于是,所有行都被过滤掉了。

为了避免这个Bug,你必须写成 WHERE id NOT IN (1, 2, NULL) AND id IS NOT NULL,这不仅丑陋,而且进一步拖慢了速度。

专家建议:实战中该怎么写?

既然 NOT IN 这么拉胯,那遇到"排除某些数据"的需求该怎么办?用 LEFT JOIN 或 NOT EXISTS 替代!

替代方案:NOT EXISTS(强推)

如果你要排除200个元素,最好这样写:

sql 复制代码
SELECT a.* 
FROM table_a a
WHERE NOT EXISTS (
    SELECT 1 
    FROM table_b b 
    WHERE a.id = b.id
);

为什么 NOT EXISTS 更好?

它遇到 NULL 不会出现整体失效的Bug。

优化器会将其改写为反半连接,它可以在扫描主表时,一旦在子查询中找到匹配项,立刻停止子查询的扫描(Early Exit),效率比 NOT IN 的全量比对高得多。

总结

效率对比:IN 2000 > NOT IN 200

原因:IN 是正向狙击,能走索引、能缓存临时表;NOT IN 是反向排除,容易全表扫描,且极易被 NULL 陷害导致结果全空。

行动指南:尽量避免使用 NOT IN,用 NOT EXISTS 或 LEFT JOIN ... WHERE b.id IS NULL 来替代。

下次再遇到类似的取舍,记住一句话:数据库最喜欢"告诉我你要什么(IN)",最讨厌"告诉我你不要什么(NOT IN)"。

相关推荐
石工记2 小时前
基于LangGraph实现智能分诊系统
数据库·人工智能·python·ai编程
m0_640309302 小时前
Redis怎样优化客户端拉取拓扑的频率_在客户端层面捕获MOVED异常时才触发全局路由表刷新
jvm·数据库·python
Jul1en_2 小时前
【Redis】List列表命令、编码方式及应用场景
数据库·redis·list
21439652 小时前
如何利用RMAN修复逻辑坏块_VALIDATE CHECK LOGICAL验证块内结构损坏
jvm·数据库·python
qq_206901392 小时前
如何使用 AWS Lambda 和 Python 获取 EMR 集群的标签列表
jvm·数据库·python
2301_777599372 小时前
JavaScript中利用类语法模拟实现单例模式的方案
jvm·数据库·python
qq_342295822 小时前
Bootstrap制作后台管理系统布局 Bootstrap如何搭建Dashboard框架
jvm·数据库·python
m0_640309302 小时前
SQL报表容灾与备份设计_灾备恢复策略
jvm·数据库·python
a9511416422 小时前
golang如何设计分布式ID生成系统_golang分布式ID生成系统设计指南
jvm·数据库·python