【踩坑】SparkSQL union/unionAll 函数的去重问题

Jim-2ha02025-01-05 21:04

【踩坑】SparkSQL union/unionAll 函数的去重问题

测试数据

scala 复制代码

case class Employee(first_name:String)

val employeeDF1 = spark.createDataset(Seq( 
    Employee("Mary"), 
    Employee("Mandy"),
    Employee("Kurt")
))
val employeeDF2 = spark.createDataset(Seq( 
    Employee("Mary"), 
    Employee("Julie"), 
    Employee("Mandy"),
    Employee("Julie"), 
    Employee("Kurt")
))

无论是union还是unionall都不会去重

scala 复制代码

employeeDF1.union(employeeDF2).show

scala 复制代码

employeeDF1.unionAll(employeeDF2).show

当通过spark.sql执行方式时，union可以去重

scala 复制代码

employeeDF1.createOrReplaceTempView("ds1")
employeeDF2.createOrReplaceTempView("ds2")

scala 复制代码

spark.sql("select * from ds1 union select * from ds2").show

scala 复制代码

spark.sql("select * from ds1 union all select * from ds2").show

误区
- SQL标准查询语言　层面（如hive环境）：union去重，unionAll简单合并性能较好
- Spark union 默认按列的位置直接合并，很可能字段错误合并。可使用unionByName作为替代
- 最新官方集合操作文档：https://spark.apache.org/docs/latest/sql-ref-syntax-qry-select-setops.html#set-operators