Spark-3.5.7文档2 - RDD 编程指南从高层次来看,每个 Spark 应用程序都包含一个驱动程序,该程序运行用户的主函数并在集群上执行各种并行操作。Spark 提供的核心抽象是弹性分布式数据集(RDD),即一种分布在集群节点间的元素集合,可被并行操作。RDD 可通过以下方式创建:从 Hadoop 文件系统(或任何其他 Hadoop 支持的文件系统)中的文件起步,或基于驱动程序中的现有 Scala 集合进行转换生成。用户也可要求 Spark 将 RDD 持久化到内存中,使其能在并行操作间高效复用。最后,RDD 能自动从节点故障中恢复。