Spark学习全总结

基础概念

Spark 是一个快速、通用的大数据处理引擎,支持多种计算模式,如批处理、流处理、交互式查询和机器学习等。

特点:

速度快:基于内存计算,能将数据缓存在内存中,避免频繁读写磁盘,大幅提高处理速度。同时采用了先进的优化技术,如数据分区、推测执行等。

易用性高:支持多种编程语言,如Scala、Java、Python和R等,提供了丰富的API,方便用户进行开发。

通用性强:提供了多种高层组件,包括用于批处理的Spark SQL、用于流计算的Spark Streaming、用于机器学习的MLlib和用于图计算的GraphX等,能满足不同类型的大数据处理需求。

可扩展性好:能轻松扩展到大量的节点上,处理大规模的数据集,具有良好的容错机制,可自动处理节点故障。

与MapReduce比较:

基于内存计算,相较于 MapReduce 等传统框架,能显著提升数据处理速度,适合迭代计算。

拥有丰富的生态系统,包括 Spark SQL、Spark Streaming、MLlib(机器学习库)和 GraphX(图计算库)等组件。

核心组件:

RDD(弹性分布式数据集):Spark 的核心数据结构,是一个容错、并行的数据集合,可以进行各种转换(如 map、filter、join 等)和动作操作(如 collect、count、save 等)。

DAG(有向无环图):作业的逻辑执行计划,由 RDD 的一系列操作构建而成,Spark 会根据 DAG 对作业进行优化和调度。

Executor:运行在工作节点(Worker Node)上的进程,负责执行任务并处理数据。

Driver:程序的入口点,负责创建 SparkContext,协调各个工作节点,调度任务。

编程:

Scala :Scala 是 Spark 的主要编程语言之一,使用 Scala API 可以灵活地操作 RDD,实现复杂的数据处理逻辑。

SQL :Spark SQL 允许使用 SQL 语句进行数据查询和分析,支持与多种数据源(如 Hive)的集成。

Spark SQL:

功能:用于处理结构化数据,支持SQL查询和DataFrame、DataSet API,能与多种数据源(如Hive、JSON、Parquet等)进行交互,并提供了查询优化和执行计划生成等功能。

应用场景:适用于需要进行SQL风格的数据查询、分析和处理的场景,如商业智能报表、数据仓库查询等。

Spark Streaming:

用于处理实时流数据,将流数据分割成小的批次进行处理,实现近似实时的数据分析。

支持多种数据源,如 Kafka、Flume等,以及各种流处理操作,如窗口操作、状态管理等。

DStream转换:DStream 上的操作与 RDD 的类似,分为 Transformations(转换)和 Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种 Window 相关的原语。

相关推荐
Unbelievabletobe2 小时前
解决了股票api接口盘后数据更新慢的问题
大数据·开发语言·python
sulikey4 小时前
个人Linux操作系统学习笔记6 - 操作系统与进程初识
linux·笔记·学习·操作系统·进程
Promise微笑4 小时前
2026年中国驱鸟器市场格局与主流品牌技术
大数据·人工智能
unicorn314 小时前
学习学习学习
学习
XGeFei5 小时前
【Fastapi学习笔记(3)】——资源的层级关系、安全性-幂等性、Field、工厂函数
笔记·学习·fastapi
幽络源小助理6 小时前
最新知识付费系统网站源码 PC+H5双端 附安装教程 – 幽络源源码网
大数据·数据库
luweis6 小时前
企智孪生 ETA(3.3 认知算法层:ETA 的思维内核 3.4 基础架构:算力与弹性)【浙江联保网络 卢伟舜】
大数据·运维·线性代数·ai·矩阵·学习方法
星恒随风6 小时前
Python 基础语法详解(一):从表达式、变量到数据类型
开发语言·笔记·python·学习
暴躁小师兄数据学院7 小时前
【AI大数据工程师特训笔记】第14讲:Linux操作系统与shell脚本
大数据·人工智能·笔记