并行度数量
并行度指所有Executor可以同时执行的Task数,
每个Executor中的一个Core(线程,虚拟核数)同时只能执行一个Task,
所以 最大并行度 = Executor数量 * 每个Executor的Core数;
eg:资源配置10个Executor节点,每个节点2个Core,那么同一时间可以并行计算的task数为20,
如果RDD有100个分区,那么需要5轮计算完毕,
如果RDD有2个分区,那么计算时只使用2个Core,其余18个Core空转,浪费资源,
所以Spark调优中会通过增大RDD分区数,增大任务并行度来提高效率。