大数据Spark教程从入门到精通第三篇:Spark核心模块

一:Spark核心模块

1:概述

Spark最底层的模块是Apache Spark Core,其他的功能都是基于此实现的。

Spark SQL操作结构化数据的模块

Spark Streaming 对流式数据处理的模块。

Spark MLlib对机器学习支持的一个功能模块。学习难度很高

Spark GraphX对图形挖掘支持的一个功能模型。学习难度很高

2:详解

Spark Core

Spark Core 中提供了 Spark 最基础与最核心的功能,Spark其他的功能如:Spark Streaming、Spark SQLGraphX、 MIlib都是在 Spark Core 的基础上进行扩展的

Spark SQL

Spark SQL 是 Spark用来操作结构化数据的组件。通过 Spark SQL,用户可以使用 SQI或者 Apache Hive 版本的 SOL 方言(HQL)来查询数据。

Spark Streaming

Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的 API。

相关推荐
^Moon^5 小时前
CycloneDDS:跨主机多进程通信全解析
c++·分布式·dds
长安城没有风9 小时前
从入门到精通【Redis】Redis 典型应⽤ --- 分布式锁
数据库·redis·分布式
言之。9 小时前
大模型嵌入 vs ES:语义搜索与关键字搜索
大数据·elasticsearch·搜索引擎
SirLancelot110 小时前
StarRocks-基本介绍(一)基本概念、特点、适用场景
大数据·数据库·数据仓库·sql·数据分析·database·数据库架构
阑梦清川10 小时前
es的docker部署和docker相关的可可视化面板工具介绍
大数据·elasticsearch·docker
Mr_LiYYD11 小时前
elasticsearch数据迁移
大数据·elasticsearch·搜索引擎
dalianwawatou12 小时前
GitLab 代码基础操作清单
大数据·elasticsearch·gitlab
Costrict12 小时前
解锁新阵地!CoStrict 现已支持 JetBrains 系列 IDE
大数据·ide·人工智能·深度学习·自然语言处理·ai编程·visual studio
爬山算法12 小时前
Redis(69)Redis分布式锁的优点和缺点是什么?
数据库·redis·分布式
阿里云大数据AI技术12 小时前
云栖实录|阿里云 Milvus:AI 时代的专业级向量数据库
大数据·人工智能·搜索引擎