大数据Spark教程从入门到精通第三篇:Spark核心模块

一:Spark核心模块

1:概述

Spark最底层的模块是Apache Spark Core,其他的功能都是基于此实现的。

Spark SQL操作结构化数据的模块

Spark Streaming 对流式数据处理的模块。

Spark MLlib对机器学习支持的一个功能模块。学习难度很高

Spark GraphX对图形挖掘支持的一个功能模型。学习难度很高

2:详解

Spark Core

Spark Core 中提供了 Spark 最基础与最核心的功能,Spark其他的功能如:Spark Streaming、Spark SQLGraphX、 MIlib都是在 Spark Core 的基础上进行扩展的

Spark SQL

Spark SQL 是 Spark用来操作结构化数据的组件。通过 Spark SQL,用户可以使用 SQI或者 Apache Hive 版本的 SOL 方言(HQL)来查询数据。

Spark Streaming

Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的 API。

相关推荐
czlczl200209256 小时前
XA分布式事务
分布式
Agentic AI人工智能与大数据8 小时前
数据产品运营指南:如何提升用户活跃度?这4个策略让数据产品不再“沉睡”
大数据·ai·产品运营
飞Link9 小时前
开发者必读:2026 欧盟“AI Omnibus”法案达成,技术合规性红线在哪里?
大数据
老纪的技术唠嗑局9 小时前
深度解析 LLM Wiki / Obsidian-Wiki / GBrain:Agent 时代知识的“自组织”与“自进化”
大数据·数据库·人工智能·算法
笨手笨脚の10 小时前
分布式系统的本质是什么
分布式
好赞科技11 小时前
2026年高口碑餐厅预约小程序排行榜:智能就餐新体验一键解锁
大数据·微信小程序
czlczl2002092511 小时前
Zookeeper
分布式·zookeeper·云原生
数据智能老司机11 小时前
深入解锁 dbt——Documentation:项目文档与数据文档
大数据
计算机毕业编程指导师12 小时前
【计算机毕设推荐】Python+Hadoop+Spark共享单车数据可视化分析系统 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·数据挖掘·spark·课程设计
计算机毕业编程指导师12 小时前
【计算机毕设】基于Hadoop的共享单车订单数据分析系统+Python+Django全栈开发 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·数据挖掘·spark·django