区分:union(),coalesce () 和 repartition ()

一、合并的对象:数据 vs 分区

Spark 中需要区分两个概念:

  • 数据(Data):RDD 中的元素(如 [1, 2, 3])。
  • 分区(Partitions):数据的物理存储单位,分布在集群的不同节点上。

这三个算子的 "合并" 对象不同:

  • union():合并数据(将多个 RDD 的元素叠加)。
  • coalesce () 和 repartition ():合并分区(调整数据的物理分布)。

二、union ():合并数据(不改变分区)

核心逻辑
  • 将多个 RDD 的元素合并成一个新的 RDD。
  • 分区数 = 原 RDD 分区数之和,每个 RDD 的分区保持独立。
示例

假设有两个 RDD:

scala

复制代码
// RDD 1:2个分区
val rdd1 = sc.parallelize(Seq(1, 2, 3), 2)  // 分区0: [1, 2], 分区1: [3]

// RDD 2:3个分区
val rdd2 = sc.parallelize(Seq(4, 5, 6), 3)  // 分区0: [4], 分区1: [5], 分区2: [6]

执行 union ():

scala

复制代码
val unionRdd = rdd1.union(rdd2)  // 共5个分区(2+3)
unionRdd.glom().collect()        // 查看分区内容
结果可视化

plaintext

复制代码
rdd1:
  分区0 -> [1, 2]
  分区1 -> [3]

rdd2:
  分区0 -> [4]
  分区1 -> [5]
  分区2 -> [6]

union_rdd:
  分区0 -> [1, 2]    # rdd1的分区0
  分区1 -> [3]       # rdd1的分区1
  分区2 -> [4]       # rdd2的分区0
  分区3 -> [5]       # rdd2的分区1
  分区4 -> [6]       # rdd2的分区2
关键点
  • 数据合并:rdd1 和 rdd2 的元素被放到一起。
  • 分区独立:每个 RDD 的分区保持原样,只是简单叠加。

三、coalesce () 和 repartition ():合并分区(调整数据分布)

核心逻辑
  • 合并分区:将同一个 RDD 的多个分区物理合并为更少的分区(或通过 shuffle 重新分布)。
  • 数据可能重新分布:通过移动数据实现分区合并。
示例:coalesce (2)

假设初始 RDD 有 4 个分区:

scala

执行 coalesce (2)(合并为 2 个分区):

scala

复制代码
val coalescedRdd = rdd.coalesce(2)  // 合并为2个分区
coalescedRdd.glom().collect()
结果可视化
复制代码
原 rdd:
  分区0 -> [1, 2]
  分区1 -> [3, 4]
  分区2 -> [5, 6]
  分区3 -> [7, 8]

coalesced_rdd(合并相邻分区):
  分区0 -> [1, 2, 3, 4]    # 合并原分区0和1
  分区1 -> [5, 6, 7, 8]    # 合并原分区2和3
repartition () 的区别

如果用 repartition (2):

scala

复制代码
val repartitionedRdd = rdd.repartition(2)  // 重新分区为2个
repartitionedRdd.glom().collect()
结果可视化
复制代码
repartitioned_rdd(通过shuffle均匀分布):
  分区0 -> [1, 3, 5, 7]    # 数据被打散到新分区
  分区1 -> [2, 4, 6, 8]
关键点
  • 分区合并:将原本分散的分区物理合并为更少的分区。
  • 数据移动:coalesce () 尽量不 shuffle(合并相邻分区),而 repartition () 强制 shuffle 以保证数据均匀。

四、对比总结

算子 合并对象 是否改变分区数 数据是否 shuffle 核心场景
union() 多个 RDD 的数据 是(叠加原分区数) 快速合并多个数据集
coalesce() 同一个 RDD 的分区 是(通常减少) 否(默认) 减少分区数,避免 shuffle
repartition() 同一个 RDD 的分区 是(任意调整) 彻底重分区,解决数据倾斜

五、常见误区解答

1. union () 会合并分区吗?

不会!union () 只是将多个 RDD 的分区简单叠加,分区数等于原 RDD 分区数之和。例如:

scala

复制代码
val rdd1 = sc.parallelize(Seq(1, 2), 1)  // 1个分区
val rdd2 = sc.parallelize(Seq(3, 4), 1)  // 1个分区
val unionRdd = rdd1.union(rdd2)           // 2个分区(1+1)
2. coalesce () 和 repartition () 的合并有什么不同?
  • coalesce() :通过合并相邻分区实现,不 shuffle(默认),可能导致数据倾斜。

    scala

    复制代码
    rdd.coalesce(1)  // 合并为1个分区,数据可能集中在一个节点
  • repartition() :通过 shuffle 重新分布数据,分区更均匀,但开销大。

    scala

    复制代码
    rdd.repartition(10)  // 增加到10个分区,数据被打散

六、一句话总结

  • union():多个 RDD 的数据合并(分区数叠加)。
  • coalesce()/repartition():同一个 RDD 的分区合并(调整数据分布)。
相关推荐
uesowys10 分钟前
Apache Spark算法开发指导-Decision tree classifier
算法·决策树·spark
私域合规研究23 分钟前
【AI应用】AI与大数据融合:中国品牌出海获客的下一代核心引擎
大数据·海外获客
TDengine (老段)44 分钟前
金融风控系统中的实时数据库技术实践
大数据·数据库·物联网·时序数据库·tdengine·涛思数据
不光头强1 小时前
kafka学习要点
分布式·学习·kafka
難釋懷1 小时前
分布式锁-redission可重入锁原理
分布式
MMME~1 小时前
Ansible模块速查指南:高效定位与实战技巧
大数据·运维·数据库
计算机毕业编程指导师1 小时前
大数据可视化毕设:Hadoop+Spark交通分析系统从零到上线 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·spark·毕业设计·城市交通
计算机毕业编程指导师2 小时前
【计算机毕设选题】基于Spark的车辆排放分析:2026年热门大数据项目 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·spark·毕业设计·车辆排放
珠海西格2 小时前
远动通信装置为何是电网安全运行的“神经中枢”?
大数据·服务器·网络·数据库·分布式·安全·区块链
ha_lydms2 小时前
DataWorks离线同步 OSS文件
大数据·阿里云·oss·dataworks·maxcompute·数据同步·离线计算