大数据Spark教程从入门到精通第三篇:Spark核心模块

一:Spark核心模块

1:概述

Spark最底层的模块是Apache Spark Core,其他的功能都是基于此实现的。

Spark SQL操作结构化数据的模块

Spark Streaming 对流式数据处理的模块。

Spark MLlib对机器学习支持的一个功能模块。学习难度很高

Spark GraphX对图形挖掘支持的一个功能模型。学习难度很高

2:详解

Spark Core

Spark Core 中提供了 Spark 最基础与最核心的功能,Spark其他的功能如:Spark Streaming、Spark SQLGraphX、 MIlib都是在 Spark Core 的基础上进行扩展的

Spark SQL

Spark SQL 是 Spark用来操作结构化数据的组件。通过 Spark SQL,用户可以使用 SQI或者 Apache Hive 版本的 SOL 方言(HQL)来查询数据。

Spark Streaming

Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的 API。

相关推荐
大大大大晴天8 小时前
Hudi技术内幕:RecordPayload到RecordMerger
大数据
SelectDB1 天前
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率
大数据·后端·云原生
WhoAmI1 天前
MapReduce框架原理解析一:InputFormat
大数据·hadoop
WhoAmI1 天前
MapReduce框架原理解析三:OutputFormat
大数据·hadoop
WhoAmI1 天前
MapReduce框架原理解析二:Shuffle
大数据·hadoop
大大大大晴天2 天前
Hudi技术内幕:Key Generation原理与实践
大数据
得物技术5 天前
从埋点需求到规则资产:Hermes Agent 重构得物数仓工作流
大数据·llm·ai编程
久美子5 天前
AI驱动数仓建设的Harness工程实践——本体建模、知识分层与上下文工程
大数据
大树886 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
大志哥1236 天前
ES和Logstash日志链路系统上线后遭遇切片爆炸(解决)
大数据·elasticsearch