【Spark】配置参数关系-重要

sdbhewfoqi2023-10-28 8:30

并行度数量

并行度指所有Executor可以同时执行的Task数，

每个Executor中的一个Core（线程，虚拟核数）同时只能执行一个Task，

所以 最大并行度 = Executor数量 * 每个Executor的Core数；

eg：资源配置10个Executor节点，每个节点2个Core，那么同一时间可以并行计算的task数为20，

如果RDD有100个分区，那么需要5轮计算完毕，

如果RDD有2个分区，那么计算时只使用2个Core，其余18个Core空转，浪费资源，

所以Spark调优中会通过增大RDD分区数，增大任务并行度来提高效率。