Spark 之 partitons

Listing leaf files and directories

分析其并行化

org.apache.spark.util.HadoopFSUtils

复制代码
      sc.parallelize(paths, numParallelism)
        .mapPartitions { pathsEachPartition =>
          val hadoopConf = serializableConfiguration.value
          pathsEachPartition.map { path =>
            val leafFiles = listLeafFiles(
              path = path,
              hadoopConf = hadoopConf,
              filter = filter,
              contextOpt = None, // Can't execute parallel scans on workers
              ignoreMissingFiles = ignoreMissingFiles,
              ignoreLocality = ignoreLocality,
              isRootPath = isRootLevel,
              parallelismThreshold = Int.MaxValue,
              parallelismMax = 0)
            (path, leafFiles)
          }
        }.collect()

    // Set the number of parallelism to prevent following file listing from generating many tasks
    // in case of large #defaultParallelism.
    val numParallelism = Math.min(paths.size, parallelismMax)

parallelismMax 最终由以下配置决定。

复制代码
  val PARALLEL_PARTITION_DISCOVERY_PARALLELISM =
    buildConf("spark.sql.sources.parallelPartitionDiscovery.parallelism")
      .doc("The number of parallelism to list a collection of path recursively, Set the " +
        "number to prevent file listing from generating too many tasks.")
      .version("2.1.1")
      .internal()
      .intConf
      .createWithDefault(10000)
相关推荐
成旭先生13 小时前
【2026年可用】企业信息查询API接口
java·大数据·模糊查询·企业信息
谁似人间西林客13 小时前
解析工业大数据在制造业转型中的应用场景与价值
大数据
青岛前景互联信息技术有限公司13 小时前
从被动处置到主动防控:智能接处警带来的四大核心价值
大数据·人工智能·物联网
Irene199113 小时前
PMP管理大数据学习建议
大数据·学习·pmp
幂律智能13 小时前
法律人的AI技术词典:从LLM到Agent
大数据·人工智能
罗小罗同学13 小时前
华西医院联合多伦多大学、盛京医院等机构发布多模态智能体检索模型,实现 AI 循证推理全链条权威可溯
大数据·人工智能·机器学习·医工交叉·医学ai
captain_AIouo14 小时前
Captain AI:全阶段适配不同规模OZON商家
大数据·人工智能·经验分享·aigc
缝艺智研社14 小时前
2026年 自动化缝纫模板机 机器人工作站市场洞察与排名
大数据·网络·人工智能·自动化·制造·新人首发·自动化缝纫机
dingzd9514 小时前
Pinterest自动化投放升级后跨境品牌如何提高素材转化效率
大数据·人工智能·新媒体运营·产品运营·营销策略
深科信项目申报助手14 小时前
2026年高新技术企业申报细则
大数据·人工智能·经验分享·其他