大数据Spark教程从入门到精通第三篇:Spark核心模块

一:Spark核心模块

1:概述

Spark最底层的模块是Apache Spark Core,其他的功能都是基于此实现的。

Spark SQL操作结构化数据的模块

Spark Streaming 对流式数据处理的模块。

Spark MLlib对机器学习支持的一个功能模块。学习难度很高

Spark GraphX对图形挖掘支持的一个功能模型。学习难度很高

2:详解

Spark Core

Spark Core 中提供了 Spark 最基础与最核心的功能,Spark其他的功能如:Spark Streaming、Spark SQLGraphX、 MIlib都是在 Spark Core 的基础上进行扩展的

Spark SQL

Spark SQL 是 Spark用来操作结构化数据的组件。通过 Spark SQL,用户可以使用 SQI或者 Apache Hive 版本的 SOL 方言(HQL)来查询数据。

Spark Streaming

Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的 API。

相关推荐
java叶新东老师35 分钟前
RabbitMq 常用命令和REST API
分布式·rabbitmq·ruby
虚伪的空想家1 小时前
记录es收集日志报错问题as the final mapping would have more than 1 type[XXX,doc]
大数据·elasticsearch·搜索引擎·容器·kubernetes·log-pilot
liulilittle6 小时前
C++ TAP(基于任务的异步编程模式)
服务器·开发语言·网络·c++·分布式·任务·tap
码字的字节6 小时前
ZooKeeper在Hadoop中的协同应用:从NameNode选主到分布式锁实现
hadoop·分布式·zookeeper·分布式锁
武子康8 小时前
Java-80 深入浅出 RPC Dubbo 动态服务降级:从雪崩防护到配置中心秒级生效
java·分布式·后端·spring·微服务·rpc·dubbo
数据与人工智能律师11 小时前
数字迷雾中的安全锚点:解码匿名化与假名化的法律边界与商业价值
大数据·网络·人工智能·云计算·区块链
mykyle13 小时前
Elasticsearch-ik分析器
大数据·elasticsearch·jenkins
itLaity13 小时前
基于Kafka实现简单的延时队列
spring boot·分布式·kafka
qq_5298353513 小时前
Zookeeper的简单了解
分布式·zookeeper·云原生
weixin_lynhgworld14 小时前
淘宝扭蛋机小程序系统开发:重塑电商互动模式
大数据·小程序