shuffle

PersistJiao2 天前
大数据·分布式·spark·shuffle
Spark 中的 Shuffle 是分布式数据交换的核心流程,从源码角度分析 Shuffle 的执行路径Spark 中的 Shuffle 是分布式数据交换的核心流程,涉及多个组件的协同工作。为了深入理解其处理过程,我们可以从源码角度分析 Shuffle 的执行路径,分为 Shuffle Write 和 Shuffle Read 两个阶段。
PersistJiao3 天前
大数据·分布式·spark·分区·shuffle
Spark RDD 中的 repartition 和 coalesce 是两种常用的分区调整算子的异同点repartition 是通过调用 coalesce 并设置 shuffle = true 实现的,源码位于 RDD.scala:
PersistJiao4 天前
大数据·spark·rdd·shuffle·sortby
Spark RDD sortBy算子什么情况会触发shuffle在 Spark 的 RDD 中,sortBy 是一个排序算子,虽然它在某些场景下可能看起来是分区内排序,但实际上在需要全局排序时会触发 Shuffle。这里我们分析其底层逻辑,结合源码和原理来解释为什么会有 Shuffle 的发生。
PersistJiao4 天前
大数据·spark·shuffle
Spark分布式计算中Shuffle Read 和 Shuffle Write的职责和区别在 Spark 的分布式计算中,Shuffle Read 和 Shuffle Write 是两个与数据重新分区和分发相关的重要阶段。它们的主要职责和区别如下:
comedate5 个月前
python·深度学习·mindspore·dataset·shuffle
《昇思25天学习打卡营第3天 | mindspore DataSet 数据集的常见用法》使用 mindspore 学习神经网络,打卡第三天;使用 mindspore 的常见的数据集 DataSet 的使用方法;
wyply1159 个月前
stable diffusion·controlnet·shuffle
Stable Diffusion 绘画入门教程(webui)-ControlNet(Shuffle)Shuffle(随机洗牌),这个预处理器会把参考图的颜色打乱搅拌到一起,然后重新组合的方式重新生成一张图,可以想象出来这是一个整体风格控制的处理器。
这个程序猿可太秀了10 个月前
大数据·spark源码·shuffle
Spark Exchange节点和Partitioning在explain时,常看到Exchange节点,这个节点其实就是发生了数据交换BroadcastExchangeExec 主要是用来广播的