别再只会背八股了！一文带你彻底搞懂UNION与UNION ALL的区别

大家好呀，我是小米，一个31岁、喜欢写代码也喜欢分享技术的程序员。今天要和大家聊聊一个看似简单，却在社招面试中经常能把人"绊一跤"的问题------UNION和UNION ALL的区别。

说实话，这个问题我第一次被问到的时候，也是一愣。心想：这不就是SQL里的"合并查询"吗？有啥区别？但真要细抠，里面的门道还挺多。面试官要的可不只是一个"UNION去重，UNION ALL不去重"这么一句话，而是希望你能从性能、使用场景、执行原理这些维度展开聊。

那今天我就结合自己亲身的经历，带你走一遍这个"面试问答全流程"，保准你下次面试再遇到这个问题时，不仅能答出区别，还能举一反三，聊得面试官直点头。

故事开头：社招面试的尴尬一幕

去年我跳槽去面试一家大厂。前两轮面试都挺顺利，算法题、Java多线程、Spring原理......都答得很顺。但到了第三轮，一个资深DBA出身的面试官突然笑眯眯问我："小米，你说说UNION和UNION ALL的区别？"

我当时心里一紧，幸好这个问题我在八股文里背过，就脱口而出一句："UNION会去重，UNION ALL不会去重。"

面试官点点头，但接着追问："那你知道为什么UNION要去重吗？去重的代价是什么？如果在大数据量场景下，你会怎么选？能不能举个例子？"

我当时有点懵，硬着头皮说了几句，感觉不是很深入，面试官也没啥表情。后来回去复盘，才发现自己回答得太表面，没抓住重点。那天晚上我就埋头翻了大量资料，自己写SQL实验，才算彻底搞懂。今天这篇文章，就把我那段"补课"的经历和大家分享出来。

基础概念：UNION 与 UNION ALL 到底是啥？

先来回顾一下基础语法。

在SQL中，我们经常会遇到这样一个场景：想把两个表或者两条查询语句的结果合并在一起。比如：

这就是最常见的UNION语句。

它的作用很简单：把两个结果集合并成一个集合，并且自动去重。所以结果集中不会出现重复的name。

而如果我们用 UNION ALL，则是这样：

区别在于：UNION ALL 会把两个结果集直接拼接在一起，不会做去重，所以可能会出现重复的name。

一句话总结：

UNION：合并+去重
UNION ALL：合并+保留重复

深入理解：UNION 去重的代价

到这里，很多人觉得这个问题就结束了。但面试官真正想听到的是：为什么UNION会比UNION ALL慢？去重背后的逻辑是什么？

其实原理并不复杂：

UNION在执行时，会先把两个结果集合并成一个临时表。
然后对这个临时表进行排序或哈希运算，用来检查重复值。
最终返回去重后的结果集。

而UNION ALL就简单很多，它直接把结果集"拼接"到一起，连检查重复的步骤都没有。所以性能肯定更好。

所以可以这么总结：

UNION需要额外的去重操作（排序/哈希），代价大，性能差一些。
UNION ALL无需去重，速度更快，特别适合大数据量。

这也是为什么在面试中，很多大厂都会顺势问一句： "如果数据量很大，你会选UNION还是UNION ALL？"

答案当然是：优先考虑UNION ALL，除非业务确实需要去重。

实战场景：不同场景下的选择

我们来举几个实际例子，看看什么时候该用UNION，什么时候该用UNION ALL。

场景一：数据报表去重

比如我们要生成一份报表，统计公司里所有用户的邮箱地址。用户可能同时是员工（employee表），也可能是外包人员（outsourcing表）。

这时候，我们不希望重复的邮箱地址出现两次，那就该用UNION：

场景二：日志数据合并

如果你在处理日志数据，比如access_log和error_log，你只是想把这两份日志结果合并到一起分析，重复的数据无所谓。这时候就应该用UNION ALL：

不仅逻辑更符合业务，性能也更高。

场景三：分页查询

有时候我们会遇到跨表分页的场景，比如要展示来自两个不同数据源的文章内容。这种情况，绝大多数时候我们需要保留所有数据，所以也会用UNION ALL。

进阶对比：性能差距到底有多大？

光说"UNION慢"没啥说服力，咱们来点实际测试。

我当时做了个实验：在MySQL里建了两个表，各有100万行数据，其中有不少重复记录。然后分别用UNION和UNION ALL来合并。

UNION ALL 查询耗时：大概0.4秒
UNION 查询耗时：接近2秒

差了将近5倍！

当然，这个结果和数据量、索引设计、服务器性能都有关系，但能说明一个问题：UNION去重的代价，在大数据量下非常明显。

所以在实际开发中，能用UNION ALL的时候，一定别偷懒直接写UNION。

面试高分回答模板

那如果你在面试中被问到这个问题，应该怎么答才能加分呢？我给大家一个参考模板：

1、先说基础区别

"UNION会去重，UNION ALL不会去重。"

2、再说执行原理

"UNION内部需要对结果集做排序或哈希去重，所以性能会比UNION ALL差。"

3、最后补充应用场景

"比如做报表统计时需要去重，就用UNION；而像日志合并、分页这种业务场景，数据允许重复的话，应该用UNION ALL，性能更好。"

4、如果想加分，可以提优化点

"如果业务上确实需要去重，但数据量特别大，可以考虑用DISTINCT替代，或者先做索引优化。"

"还可以用程序端去重，把压力分散。"

这样回答，面试官基本就不会追问太多了，甚至会觉得你考虑得很全面。

我的一点感悟

写到这里，想分享一个小小的感悟。

我们常常会觉得面试题"太死板"，比如这个UNION与UNION ALL的区别，谁还不知道啊？可真正拉开差距的，不是"知不知道"，而是能不能讲得深入，有没有自己的理解和实战经验。

就像我第一次答题那样，只说了"UNION去重，UNION ALL不去重"，面试官心里可能直接给我判了"只会背八股"。但后来我补充了实验数据、使用场景，再结合自己的实际经历去讲，这个问题就成了加分项。

其实，面试官要看的，不仅是你有没有记忆力，而是你能不能举一反三，把知识点真正用起来。

结语

好啦，今天的分享就到这里啦！

总结一下：

UNION会去重，性能差一点；UNION ALL不去重，性能更好。
场景不同，选择不同：报表用UNION，日志合并/分页用UNION ALL。
面试时答题要分层次，既要讲基础区别，也要说性能原理，还要结合场景。

END

希望这篇文章能帮你在下次面试时答得更漂亮，不再像我当年一样一脸尴尬。

如果你觉得文章对你有帮助，记得点个 "赞" 和 "在看" ，小米会继续给大家带来更多Java面试和实战的故事哦～

我是小米，一个喜欢分享技术的31岁程序员。如果你喜欢我的文章，欢迎关注我的微信公众号"软件求生"，获取更多技术干货！