一:Spark核心模块
1:概述
Spark最底层的模块是Apache Spark Core,其他的功能都是基于此实现的。
Spark SQL操作结构化数据的模块
Spark Streaming 对流式数据处理的模块。
Spark MLlib对机器学习支持的一个功能模块。学习难度很高
Spark GraphX对图形挖掘支持的一个功能模型。学习难度很高
2:详解
Spark Core
Spark Core 中提供了 Spark 最基础与最核心的功能,Spark其他的功能如:Spark Streaming、Spark SQLGraphX、 MIlib都是在 Spark Core 的基础上进行扩展的
Spark SQL
Spark SQL 是 Spark用来操作结构化数据的组件。通过 Spark SQL,用户可以使用 SQI或者 Apache Hive 版本的 SOL 方言(HQL)来查询数据。
Spark Streaming
Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的 API。