技术栈
rangepartition
PersistJiao
1 个月前
spark
·
sortby
·
rangepartition
Spark RDD sortBy算子执行时进行数据 “采样”是什么意思?
sortBy 在 Spark 中会在执行排序时采用 rangePartitioner 进行分区,这会影响数据的分区方式,并且这一步骤是通过对数据进行 “采样” 来计算分区的范围。不过,重要的是,sortBy 本身仍然是一个 transformation,它不会立即触发计算,但在执行过程中会涉及到对数据的排序、分区和最终计算。