Spark学习全总结

基础概念

Spark 是一个快速、通用的大数据处理引擎,支持多种计算模式,如批处理、流处理、交互式查询和机器学习等。

特点:

速度快:基于内存计算,能将数据缓存在内存中,避免频繁读写磁盘,大幅提高处理速度。同时采用了先进的优化技术,如数据分区、推测执行等。

易用性高:支持多种编程语言,如Scala、Java、Python和R等,提供了丰富的API,方便用户进行开发。

通用性强:提供了多种高层组件,包括用于批处理的Spark SQL、用于流计算的Spark Streaming、用于机器学习的MLlib和用于图计算的GraphX等,能满足不同类型的大数据处理需求。

可扩展性好:能轻松扩展到大量的节点上,处理大规模的数据集,具有良好的容错机制,可自动处理节点故障。

与MapReduce比较:

基于内存计算,相较于 MapReduce 等传统框架,能显著提升数据处理速度,适合迭代计算。

拥有丰富的生态系统,包括 Spark SQL、Spark Streaming、MLlib(机器学习库)和 GraphX(图计算库)等组件。

核心组件:

RDD(弹性分布式数据集):Spark 的核心数据结构,是一个容错、并行的数据集合,可以进行各种转换(如 map、filter、join 等)和动作操作(如 collect、count、save 等)。

DAG(有向无环图):作业的逻辑执行计划,由 RDD 的一系列操作构建而成,Spark 会根据 DAG 对作业进行优化和调度。

Executor:运行在工作节点(Worker Node)上的进程,负责执行任务并处理数据。

Driver:程序的入口点,负责创建 SparkContext,协调各个工作节点,调度任务。

编程:

Scala :Scala 是 Spark 的主要编程语言之一,使用 Scala API 可以灵活地操作 RDD,实现复杂的数据处理逻辑。

SQL :Spark SQL 允许使用 SQL 语句进行数据查询和分析,支持与多种数据源(如 Hive)的集成。

Spark SQL:

功能:用于处理结构化数据,支持SQL查询和DataFrame、DataSet API,能与多种数据源(如Hive、JSON、Parquet等)进行交互,并提供了查询优化和执行计划生成等功能。

应用场景:适用于需要进行SQL风格的数据查询、分析和处理的场景,如商业智能报表、数据仓库查询等。

Spark Streaming:

用于处理实时流数据,将流数据分割成小的批次进行处理,实现近似实时的数据分析。

支持多种数据源,如 Kafka、Flume等,以及各种流处理操作,如窗口操作、状态管理等。

DStream转换:DStream 上的操作与 RDD 的类似,分为 Transformations(转换)和 Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种 Window 相关的原语。

相关推荐
大大大大晴天1 天前
Hudi技术内幕:RecordPayload到RecordMerger
大数据
SelectDB2 天前
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率
大数据·后端·云原生
WhoAmI2 天前
MapReduce框架原理解析一:InputFormat
大数据·hadoop
WhoAmI2 天前
MapReduce框架原理解析三:OutputFormat
大数据·hadoop
WhoAmI2 天前
MapReduce框架原理解析二:Shuffle
大数据·hadoop
大大大大晴天3 天前
Hudi技术内幕:Key Generation原理与实践
大数据
得物技术6 天前
从埋点需求到规则资产:Hermes Agent 重构得物数仓工作流
大数据·llm·ai编程
久美子6 天前
AI驱动数仓建设的Harness工程实践——本体建模、知识分层与上下文工程
大数据
大树887 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
通信小呆呆7 天前
当算法有了“五感”:多模态数据融合如何向人体感官协同学习?
人工智能·学习·算法·机器学习·机器人