技术栈
shuffle
PersistJiao
1 个月前
大数据
·
分布式
·
spark
·
shuffle
Spark 中的 Shuffle 是分布式数据交换的核心流程,从源码角度分析 Shuffle 的执行路径
Spark 中的 Shuffle 是分布式数据交换的核心流程,涉及多个组件的协同工作。为了深入理解其处理过程,我们可以从源码角度分析 Shuffle 的执行路径,分为 Shuffle Write 和 Shuffle Read 两个阶段。
PersistJiao
1 个月前
大数据
·
分布式
·
spark
·
分区
·
shuffle
Spark RDD 中的 repartition 和 coalesce 是两种常用的分区调整算子的异同点
repartition 是通过调用 coalesce 并设置 shuffle = true 实现的,源码位于 RDD.scala:
PersistJiao
1 个月前
大数据
·
spark
·
rdd
·
shuffle
·
sortby
Spark RDD sortBy算子什么情况会触发shuffle
在 Spark 的 RDD 中,sortBy 是一个排序算子,虽然它在某些场景下可能看起来是分区内排序,但实际上在需要全局排序时会触发 Shuffle。这里我们分析其底层逻辑,结合源码和原理来解释为什么会有 Shuffle 的发生。
PersistJiao
1 个月前
大数据
·
spark
·
shuffle
Spark分布式计算中Shuffle Read 和 Shuffle Write的职责和区别
在 Spark 的分布式计算中,Shuffle Read 和 Shuffle Write 是两个与数据重新分区和分发相关的重要阶段。它们的主要职责和区别如下:
comedate
6 个月前
python
·
深度学习
·
mindspore
·
dataset
·
shuffle
《昇思25天学习打卡营第3天 | mindspore DataSet 数据集的常见用法》
使用 mindspore 学习神经网络,打卡第三天;使用 mindspore 的常见的数据集 DataSet 的使用方法;
wyply115
10 个月前
stable diffusion
·
controlnet
·
shuffle
Stable Diffusion 绘画入门教程(webui)-ControlNet(Shuffle)
Shuffle(随机洗牌),这个预处理器会把参考图的颜色打乱搅拌到一起,然后重新组合的方式重新生成一张图,可以想象出来这是一个整体风格控制的处理器。
这个程序猿可太秀了
1 年前
大数据
·
spark源码
·
shuffle
Spark Exchange节点和Partitioning
在explain时,常看到Exchange节点,这个节点其实就是发生了数据交换BroadcastExchangeExec 主要是用来广播的