Spark专题-第一部分:Spark 核心概述(1)-Spark 是什么?

众所周知,教学文档总该以理论部分作为开篇,于是我们这篇Spark专题同样会以一堆理论和专有名词开始,笔者会尽可能的让专业词汇通俗易懂

第一部分:Spark 核心概述

Spark 是什么?

1. 大数据时代的"超级赛车"

举个例子,你有一个巨大的图书馆(HDFS),里面有数百万本书(数据)。你需要找出所有提到"人工智能"的书籍并统计次数。

  • 传统方式(MapReduce):你雇佣一群人,每人拿几本书,找到关键词后记录下来,然后把所有记录交给一个人汇总。这个过程需要反复往返图书馆书架(磁盘IO),速度较慢。

  • Spark 方式:你给每个人一个神奇的书架(内存),他们可以一次性拿多本书放在手边,快速查找并记录,大大减少了往返时间。

Spark 就是一个基于内存计算的分布式大数据处理引擎,它比传统的 MapReduce 快 10-100 倍!

2. Spark 的四大特性

  1. 速度快

    • 内存计算:减少磁盘 I/O,中间结果保存在内存中
    • 查询优化:先进的查询优化器和代码生成器
  2. 易用性

    • 多语言支持:Java, Scala, Python, R
    • 高级 API:只需要关注"做什么",而不是"怎么做"
  3. 通用性

    • Spark 生态系统提供一站式解决方案:

Spark Core
核心引擎 Spark SQL Spark Streaming MLlib
机器学习 GraphX
图计算 结构化数据处理 实时流处理 机器学习算法 图分析

  1. 兼容性
    • 多种数据源:HDFS, HBase, Cassandra, S3, Local FS...
    • 多种部署模式:Standalone, YARN, Kubernetes, Mesos

3. Spark 的核心架构

分配任务 & 监控 分配资源 分配资源 分配资源 工作节点3 Executor
工作进程 Task
计算单元 Cache
内存缓存 工作节点2 Executor
工作进程 Task
计算单元 Cache
内存缓存 工作节点1 Executor
工作进程 Task
计算单元 Cache
内存缓存 Driver Program
大脑节点 Cluster Manager
资源调度员

核心组件解析

  • Driver:大脑,负责协调整个作业的执行
  • Cluster Manager:资源调度员,负责分配计算资源
  • Worker Node:干活的工作人员,每个节点可以运行一个或多个 Executor
  • Executor:工作进程,负责执行具体的计算任务
  • Task:最小工作单元,处理一个数据分区的计算

4. Spark 与 Hadoop 的关系

应用程序层
Spark, Hive, HBase 计算引擎层
Spark, MapReduce 资源管理层
YARN, Mesos 存储层
HDFS, S3

Spark 不是要取代 Hadoop,而是增强它!常见的搭配是:

  • 存储:Hadoop HDFS(经济可靠的大规模存储)
  • 计算:Spark(高速内存计算)
  • 资源管理:Hadoop YARN(高效的资源调度)

5. 处理流程对比

多次磁盘IO Spark 优化流程 内存计算 输入数据 Pipeline 处理 输出结果 传统 MapReduce 流程 Map 阶段 输入数据 写入磁盘 Shuffle 从磁盘读取 Reduce 阶段 输出结果

6. 为什么要学习 Spark?

  1. 行业标准:大多数大数据岗位要求掌握 Spark
  2. 处理能力:能够处理 PB 级别数据
  3. 灵活性:支持批处理、流处理、机器学习和图计算
  4. 生态系统:丰富的库和活跃的社区支持
  5. 职业发展:掌握 Spark 是大数据工程师的核心技能

其实简单来说,可以看看招聘软件上对数据工程师的要求,大多会提到spark,所以咱的目标很明确,可恶,这里不能发表情包,不然有很多合适的表情包可以放在这

代码示例:创建一个简单的 Spark 应用

python 复制代码
# 导入必要的库
from pyspark.sql import SparkSession

# 创建 SparkSession - 所有 Spark 功能的入口点
spark = SparkSession.builder \
    .appName("MyFirstSparkApp") \          # 设置应用名称
    .config("spark.executor.memory", "2g") \  # 配置执行器内存
    .getOrCreate()                         # 获取或创建会话

# 打印 Spark 版本信息
print(f"Spark version: {spark.version}")

# 创建一个简单的数据集
data = [("Alice", 28), ("Bob", 35), ("Charlie", 42)]
columns = ["Name", "Age"]

# 创建 DataFrame
df = spark.createDataFrame(data, columns)

# 展示数据
df.show()

# 执行简单查询
df.filter(df.Age > 30).show()

# 停止 SparkSession
spark.stop()

输出结果

复制代码
Spark version: 3.3.0
+-------+---+
|   Name|Age|
+-------+---+
|  Alice| 28|
|    Bob| 35|
|Charlie| 42|
+-------+---+

+-------+---+
|   Name|Age|
+-------+---+
|    Bob| 35|
|Charlie| 42|
+-------+---+

只是用python举个例子,不会python也不影响,毕竟实际工作中,应该会有界面化的软件让你直接写sql,但我不想使用公司的软件写博客,就只能用python凑合了

相关推荐
字节跳动数据平台13 小时前
代码量减少 70%、GPU 利用率达 95%:火山引擎多模态数据湖如何释放模思智能的算法生产力
大数据
得物技术14 小时前
深入剖析Spark UI界面:参数与界面详解|得物技术
大数据·后端·spark
武子康16 小时前
大数据-238 离线数仓 - 广告业务 Hive分析实战:ADS 点击率、购买率与 Top100 排名避坑
大数据·后端·apache hive
武子康2 天前
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地
大数据·后端·apache hive
大大大大晴天2 天前
Flink生产问题排障-Kryo serializer scala extensions are not available
大数据·flink
武子康4 天前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
大数据·后端·apache hive
肌肉娃子4 天前
20260227.spark.Spark 性能刺客:千万别在 for 循环里写 withColumn
spark
初次攀爬者4 天前
ZooKeeper 实现分布式锁的两种方式
分布式·后端·zookeeper
武子康5 天前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP5 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet