Spark专题-第一部分:Spark 核心概述(1)-Spark 是什么?

众所周知,教学文档总该以理论部分作为开篇,于是我们这篇Spark专题同样会以一堆理论和专有名词开始,笔者会尽可能的让专业词汇通俗易懂

第一部分:Spark 核心概述

Spark 是什么?

1. 大数据时代的"超级赛车"

举个例子,你有一个巨大的图书馆(HDFS),里面有数百万本书(数据)。你需要找出所有提到"人工智能"的书籍并统计次数。

  • 传统方式(MapReduce):你雇佣一群人,每人拿几本书,找到关键词后记录下来,然后把所有记录交给一个人汇总。这个过程需要反复往返图书馆书架(磁盘IO),速度较慢。

  • Spark 方式:你给每个人一个神奇的书架(内存),他们可以一次性拿多本书放在手边,快速查找并记录,大大减少了往返时间。

Spark 就是一个基于内存计算的分布式大数据处理引擎,它比传统的 MapReduce 快 10-100 倍!

2. Spark 的四大特性

  1. 速度快

    • 内存计算:减少磁盘 I/O,中间结果保存在内存中
    • 查询优化:先进的查询优化器和代码生成器
  2. 易用性

    • 多语言支持:Java, Scala, Python, R
    • 高级 API:只需要关注"做什么",而不是"怎么做"
  3. 通用性

    • Spark 生态系统提供一站式解决方案:

Spark Core
核心引擎 Spark SQL Spark Streaming MLlib
机器学习 GraphX
图计算 结构化数据处理 实时流处理 机器学习算法 图分析

  1. 兼容性
    • 多种数据源:HDFS, HBase, Cassandra, S3, Local FS...
    • 多种部署模式:Standalone, YARN, Kubernetes, Mesos

3. Spark 的核心架构

分配任务 & 监控 分配资源 分配资源 分配资源 工作节点3 Executor
工作进程 Task
计算单元 Cache
内存缓存 工作节点2 Executor
工作进程 Task
计算单元 Cache
内存缓存 工作节点1 Executor
工作进程 Task
计算单元 Cache
内存缓存 Driver Program
大脑节点 Cluster Manager
资源调度员

核心组件解析

  • Driver:大脑,负责协调整个作业的执行
  • Cluster Manager:资源调度员,负责分配计算资源
  • Worker Node:干活的工作人员,每个节点可以运行一个或多个 Executor
  • Executor:工作进程,负责执行具体的计算任务
  • Task:最小工作单元,处理一个数据分区的计算

4. Spark 与 Hadoop 的关系

应用程序层
Spark, Hive, HBase 计算引擎层
Spark, MapReduce 资源管理层
YARN, Mesos 存储层
HDFS, S3

Spark 不是要取代 Hadoop,而是增强它!常见的搭配是:

  • 存储:Hadoop HDFS(经济可靠的大规模存储)
  • 计算:Spark(高速内存计算)
  • 资源管理:Hadoop YARN(高效的资源调度)

5. 处理流程对比

多次磁盘IO Spark 优化流程 内存计算 输入数据 Pipeline 处理 输出结果 传统 MapReduce 流程 Map 阶段 输入数据 写入磁盘 Shuffle 从磁盘读取 Reduce 阶段 输出结果

6. 为什么要学习 Spark?

  1. 行业标准:大多数大数据岗位要求掌握 Spark
  2. 处理能力:能够处理 PB 级别数据
  3. 灵活性:支持批处理、流处理、机器学习和图计算
  4. 生态系统:丰富的库和活跃的社区支持
  5. 职业发展:掌握 Spark 是大数据工程师的核心技能

其实简单来说,可以看看招聘软件上对数据工程师的要求,大多会提到spark,所以咱的目标很明确,可恶,这里不能发表情包,不然有很多合适的表情包可以放在这

代码示例:创建一个简单的 Spark 应用

python 复制代码
# 导入必要的库
from pyspark.sql import SparkSession

# 创建 SparkSession - 所有 Spark 功能的入口点
spark = SparkSession.builder \
    .appName("MyFirstSparkApp") \          # 设置应用名称
    .config("spark.executor.memory", "2g") \  # 配置执行器内存
    .getOrCreate()                         # 获取或创建会话

# 打印 Spark 版本信息
print(f"Spark version: {spark.version}")

# 创建一个简单的数据集
data = [("Alice", 28), ("Bob", 35), ("Charlie", 42)]
columns = ["Name", "Age"]

# 创建 DataFrame
df = spark.createDataFrame(data, columns)

# 展示数据
df.show()

# 执行简单查询
df.filter(df.Age > 30).show()

# 停止 SparkSession
spark.stop()

输出结果

复制代码
Spark version: 3.3.0
+-------+---+
|   Name|Age|
+-------+---+
|  Alice| 28|
|    Bob| 35|
|Charlie| 42|
+-------+---+

+-------+---+
|   Name|Age|
+-------+---+
|    Bob| 35|
|Charlie| 42|
+-------+---+

只是用python举个例子,不会python也不影响,毕竟实际工作中,应该会有界面化的软件让你直接写sql,但我不想使用公司的软件写博客,就只能用python凑合了

相关推荐
分布式存储与RustFS11 分钟前
对标MinIO!RustFS新一代AI分布式对象存储开源能力前瞻
人工智能·分布式·开源·分布式对象存储·rustfs·minio平替·s3 table
番茄去哪了13 分钟前
神领物流面试题(一)
java·大数据·中间件
qq_2915792526 分钟前
电商主图优化实战指南:AI工具如何提升点击率与转化率
大数据·人工智能·深度学习
黄焖鸡能干四碗30 分钟前
软件系统概要设计说明书模版(Word)
大数据·运维·数据库·架构·需求分析
老徐聊GEO1 小时前
AI搜索获客:亲测有效的实践案例分享
大数据·人工智能·python
AI_yangxi1 小时前
短视频矩阵系统供应商
大数据·人工智能·矩阵
段一凡-华北理工大学2 小时前
LangChain框架在高炉炼铁智能化领域的应用~系列文章02:从Prompt开始,让大模型听懂高炉的“黑话“
大数据·人工智能·学习·架构·langchain·prompt·高炉炼铁
真上帝的左手2 小时前
19. 大数据-数据治理-数据标准
大数据·数据分析
cxr8282 小时前
蜂群智能系统中“非必要不添加“原则的有效性再审视:基于分布式决策与通信复杂度的理论推导
人工智能·分布式·智能体
bIo7lyA8v2 小时前
算法工程中的可扩展性与分布式实现方案的技术8
分布式