大数据Spark教程从入门到精通第三篇:Spark核心模块

一:Spark核心模块

1:概述

Spark最底层的模块是Apache Spark Core,其他的功能都是基于此实现的。

Spark SQL操作结构化数据的模块

Spark Streaming 对流式数据处理的模块。

Spark MLlib对机器学习支持的一个功能模块。学习难度很高

Spark GraphX对图形挖掘支持的一个功能模型。学习难度很高

2:详解

Spark Core

Spark Core 中提供了 Spark 最基础与最核心的功能,Spark其他的功能如:Spark Streaming、Spark SQLGraphX、 MIlib都是在 Spark Core 的基础上进行扩展的

Spark SQL

Spark SQL 是 Spark用来操作结构化数据的组件。通过 Spark SQL,用户可以使用 SQI或者 Apache Hive 版本的 SOL 方言(HQL)来查询数据。

Spark Streaming

Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的 API。

相关推荐
H3C-Navigator16 小时前
RPC在分布式存储系统中的应用
分布式·网络协议·rpc
李慕婉学姐17 小时前
【开题答辩过程】以《分布式菌菇销售系统》为例,不会开题答辩的可以进来看看
分布式
毕设源码-郭学长19 小时前
【开题答辩全过程】以 Python基于大数据的四川旅游景点数据分析与可视化为例,包含答辩的问题和答案
大数据·python·数据分析
顧棟19 小时前
【HDFS实战】HADOOP 机架感知能力-HDFS
大数据·hadoop·hdfs
亚林瓜子20 小时前
AWS中国云中的ETL之从aurora搬数据到s3(Glue版)
hadoop·spark·云计算·etl·aws
Hello.Reader20 小时前
Kafka 安全性认证、加密、授权与落地最佳实践
分布式·kafka
程序员果子1 天前
Kafka 深度剖析:架构演进、核心概念与设计精髓
大数据·运维·分布式·中间件·架构·kafka
isfox1 天前
Hadoop RPC深度解析:分布式通信的核心机制
大数据
神仙别闹1 天前
基于Go语言实现分布式类地球模拟系统
分布式
猎板PCB黄浩1 天前
PCB 半固化片:被忽视的成本控制关键,猎板的技术选型与安全适配策略
大数据·网络·人工智能