技术栈

rangepartition

PersistJiao
6 个月前
spark·sortby·rangepartition
Spark RDD sortBy算子执行时进行数据 “采样”是什么意思?sortBy 在 Spark 中会在执行排序时采用 rangePartitioner 进行分区,这会影响数据的分区方式,并且这一步骤是通过对数据进行 “采样” 来计算分区的范围。不过,重要的是,sortBy 本身仍然是一个 transformation,它不会立即触发计算,但在执行过程中会涉及到对数据的排序、分区和最终计算。