1. RDD(弹性分布式数据集)
适用场景:
- 无结构化 / 半结构化数据的复杂计算:如日志清洗、非结构化文本处理(无固定 Schema);
- 底层自定义计算逻辑:需要手动控制分区、缓存、Shuffle 等(如自定义聚合、复杂迭代算法);
- 与底层 API 交互:需调用 Hadoop API(如读写 HDFS 文件)或自定义 RDD 算子;
- 兼容旧代码:历史 Spark 项目的遗留代码维护。
不适用场景:
- 结构化数据的常规分析(开发效率低、无优化器支持);
- 需 Schema 校验、SQL 查询的场景。
2. Spark SQL(SQL 查询)
适用场景:
- 结构化数据的即席查询:如数据分析师通过 SQL 快速分析数仓表(Hive 表、Parquet 等);
- 多数据源联邦查询:统一查询 Hive、MySQL、HBase 等数据源的数据;
- 与 BI 工具集成:对接 Tableau、Superset 等可视化工具;
- 简单 ETL 任务:通过 SQL 完成过滤、聚合、关联等操作(开发效率高)。
不适用场景:
- 需要复杂编程逻辑的计算(如自定义算法);
- 非结构化数据处理。
3. DataFrame(带 Schema 的分布式数据集)
适用场景:
- 结构化数据的高效 ETL:如清洗、转换结构化日志(有固定 Schema);
- 性能优先的批量计算:依赖 Catalyst 优化器和 Tungsten 执行引擎(比 RDD 性能高);
- 跨语言开发:兼容 Scala、Java、Python、R(API 统一);
- 读写结构化数据源:如 Parquet、ORC、CSV、Hive 表(自动解析 Schema)。
不适用场景:
- 需要编译时类型安全的场景(运行时才校验 Schema);
- 复杂自定义数据类型的处理。
4. Dataset(带类型的 DataFrame)
适用场景:
- 结构化数据 + 类型安全需求:如 Scala/Java 项目中,需编译时校验 Schema(避免运行时错误);
- 复杂业务逻辑的结构化计算:结合 DataFrame 的性能和 RDD 的类型安全(如自定义 UDF + 类型校验);
- 面向对象的数据分析:用样例类(Case Class)封装数据,代码可读性高;
- 高性能 + 开发效率兼顾:既享受 Catalyst 优化,又有类型安全保障。
不适用场景:
- Python/R 开发(Python 中 Dataset 退化为 DataFrame,无类型安全);
- 非结构化数据处理。
企业级开发的优先级建议:
- 优先用 Dataset:Scala/Java 项目中,结构化数据场景首选(类型安全 + 性能);
- 其次用 DataFrame:跨语言、简单结构化数据场景;
- 必要时用 Spark SQL:即席查询、BI 集成场景;
- 最后用 RDD:仅在无结构化数据、底层自定义逻辑时使用。