大数据Spark教程从入门到精通第三篇:Spark核心模块

一:Spark核心模块

1:概述

Spark最底层的模块是Apache Spark Core,其他的功能都是基于此实现的。

Spark SQL操作结构化数据的模块

Spark Streaming 对流式数据处理的模块。

Spark MLlib对机器学习支持的一个功能模块。学习难度很高

Spark GraphX对图形挖掘支持的一个功能模型。学习难度很高

2:详解

Spark Core

Spark Core 中提供了 Spark 最基础与最核心的功能,Spark其他的功能如:Spark Streaming、Spark SQLGraphX、 MIlib都是在 Spark Core 的基础上进行扩展的

Spark SQL

Spark SQL 是 Spark用来操作结构化数据的组件。通过 Spark SQL,用户可以使用 SQI或者 Apache Hive 版本的 SOL 方言(HQL)来查询数据。

Spark Streaming

Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的 API。

相关推荐
点点滴滴的记录36 分钟前
分布式之Raft算法
分布式
桃林春风一杯酒2 小时前
HADOOP_HOME and hadoop.home.dir are unset.
大数据·hadoop·分布式
桃木山人2 小时前
BigData File Viewer报错
大数据·java-ee·github·bigdata
B站计算机毕业设计超人3 小时前
计算机毕业设计Python+DeepSeek-R1高考推荐系统 高考分数线预测 大数据毕设(源码+LW文档+PPT+讲解)
大数据·python·机器学习·网络爬虫·课程设计·数据可视化·推荐算法
数造科技3 小时前
紧随“可信数据空间”政策风潮,数造科技正式加入开放数据空间联盟
大数据·人工智能·科技·安全·敏捷开发
逸Y 仙X6 小时前
Git常见命令--助力开发
java·大数据·git·java-ee·github·idea
逻各斯7 小时前
Redisson分布式锁java语法, 可重入性实现原理 ,(还有可重试性,超时不释放,主从一致性)
分布式
caihuayuan47 小时前
PHP建立MySQL持久化连接(长连接)及mysql与mysqli扩展的区别
java·大数据·sql·spring
B站计算机毕业设计超人7 小时前
计算机毕业设计Hadoop+Spark+DeepSeek-R1大模型民宿推荐系统 hive民宿可视化 民宿爬虫 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·hadoop·爬虫·机器学习·课程设计·数据可视化·推荐算法
WeiLai11127 小时前
面试基础--微服务架构:如何拆分微服务、数据一致性、服务调用
java·分布式·后端·微服务·中间件·面试·架构