大数据Spark教程从入门到精通第三篇:Spark核心模块

一:Spark核心模块

1:概述

Spark最底层的模块是Apache Spark Core,其他的功能都是基于此实现的。

Spark SQL操作结构化数据的模块

Spark Streaming 对流式数据处理的模块。

Spark MLlib对机器学习支持的一个功能模块。学习难度很高

Spark GraphX对图形挖掘支持的一个功能模型。学习难度很高

2:详解

Spark Core

Spark Core 中提供了 Spark 最基础与最核心的功能,Spark其他的功能如:Spark Streaming、Spark SQLGraphX、 MIlib都是在 Spark Core 的基础上进行扩展的

Spark SQL

Spark SQL 是 Spark用来操作结构化数据的组件。通过 Spark SQL,用户可以使用 SQI或者 Apache Hive 版本的 SOL 方言(HQL)来查询数据。

Spark Streaming

Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的 API。

相关推荐
码界奇点10 分钟前
时序数据库选型指南从大数据视角看IoTDB的核心优势
大数据·时序数据库·iotdb
数据超市19 分钟前
快速CAD转到PPT的方法,带教程
大数据·python·科技·信息可视化·数据挖掘
不见长安在26 分钟前
分布式ID
java·分布式·分布式id
qq_3168377534 分钟前
jmeter 分布式压测
分布式·jmeter
TDengine (老段)39 分钟前
从细胞工厂到智能制造:Extracellular 用 TDengine 打通数据生命线
java·大数据·数据库·科技·制造·时序数据库·tdengine
PONY LEE2 小时前
Flink 任务调优案例分析
大数据·flink
Hello.Reader2 小时前
Flink DataStream V2 的 Watermark可编排的“流内控制事件”实战
大数据·flink
驾数者2 小时前
Flink SQL核心概念解析:Table API与流表二元性
大数据·sql·flink
西岭千秋雪_3 小时前
Zookeeper实现分布式锁
java·分布式·后端·zookeeper·wpf
毕设源码-钟学长6 小时前
【开题答辩全过程】以 分布式菌菇销售系统为例,包含答辩的问题和答案
分布式