大数据Spark教程从入门到精通第三篇:Spark核心模块

一:Spark核心模块

1:概述

Spark最底层的模块是Apache Spark Core,其他的功能都是基于此实现的。

Spark SQL操作结构化数据的模块

Spark Streaming 对流式数据处理的模块。

Spark MLlib对机器学习支持的一个功能模块。学习难度很高

Spark GraphX对图形挖掘支持的一个功能模型。学习难度很高

2:详解

Spark Core

Spark Core 中提供了 Spark 最基础与最核心的功能,Spark其他的功能如:Spark Streaming、Spark SQLGraphX、 MIlib都是在 Spark Core 的基础上进行扩展的

Spark SQL

Spark SQL 是 Spark用来操作结构化数据的组件。通过 Spark SQL,用户可以使用 SQI或者 Apache Hive 版本的 SOL 方言(HQL)来查询数据。

Spark Streaming

Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的 API。

相关推荐
hellolianhua1 分钟前
wordcount在mapreduce的例子
大数据·mapreduce
时序数据说6 分钟前
IoTDB集群的一键启停功能详解
大数据·数据库·开源·时序数据库·iotdb
就不爱吃大米饭15 分钟前
Chrome代理IP配置教程常见方式附问题解答
大数据·人工智能·搜索引擎
庄小焱37 分钟前
数据治理域——数据同步设计
大数据·数据治理·数据同步·系统架构设计·大数据治理
成长之路5141 小时前
【更新】全国省市县-公开手机基站数据集(2006-2025.3)
大数据
心仪悦悦1 小时前
RDD的自定义分区器
大数据·分布式·spark
End9282 小时前
RDD的自定义分区器
大数据
Freedom℡2 小时前
在scala中sparkSQL连接masql并添加新数据
spark
数据库安全2 小时前
美创科技针对《银行保险机构数据安全管理办法》解读
大数据·人工智能·产品运营
ice___Cpu3 小时前
Git - 1( 14000 字详解 )
大数据·git·elasticsearch