Spark专题-第一部分:Spark 核心概述(1)-Spark 是什么?

众所周知,教学文档总该以理论部分作为开篇,于是我们这篇Spark专题同样会以一堆理论和专有名词开始,笔者会尽可能的让专业词汇通俗易懂

第一部分:Spark 核心概述

Spark 是什么?

1. 大数据时代的"超级赛车"

举个例子,你有一个巨大的图书馆(HDFS),里面有数百万本书(数据)。你需要找出所有提到"人工智能"的书籍并统计次数。

  • 传统方式(MapReduce):你雇佣一群人,每人拿几本书,找到关键词后记录下来,然后把所有记录交给一个人汇总。这个过程需要反复往返图书馆书架(磁盘IO),速度较慢。

  • Spark 方式:你给每个人一个神奇的书架(内存),他们可以一次性拿多本书放在手边,快速查找并记录,大大减少了往返时间。

Spark 就是一个基于内存计算的分布式大数据处理引擎,它比传统的 MapReduce 快 10-100 倍!

2. Spark 的四大特性

  1. 速度快

    • 内存计算:减少磁盘 I/O,中间结果保存在内存中
    • 查询优化:先进的查询优化器和代码生成器
  2. 易用性

    • 多语言支持:Java, Scala, Python, R
    • 高级 API:只需要关注"做什么",而不是"怎么做"
  3. 通用性

    • Spark 生态系统提供一站式解决方案:

Spark Core
核心引擎 Spark SQL Spark Streaming MLlib
机器学习 GraphX
图计算 结构化数据处理 实时流处理 机器学习算法 图分析

  1. 兼容性
    • 多种数据源:HDFS, HBase, Cassandra, S3, Local FS...
    • 多种部署模式:Standalone, YARN, Kubernetes, Mesos

3. Spark 的核心架构

分配任务 & 监控 分配资源 分配资源 分配资源 工作节点3 Executor
工作进程 Task
计算单元 Cache
内存缓存 工作节点2 Executor
工作进程 Task
计算单元 Cache
内存缓存 工作节点1 Executor
工作进程 Task
计算单元 Cache
内存缓存 Driver Program
大脑节点 Cluster Manager
资源调度员

核心组件解析

  • Driver:大脑,负责协调整个作业的执行
  • Cluster Manager:资源调度员,负责分配计算资源
  • Worker Node:干活的工作人员,每个节点可以运行一个或多个 Executor
  • Executor:工作进程,负责执行具体的计算任务
  • Task:最小工作单元,处理一个数据分区的计算

4. Spark 与 Hadoop 的关系

应用程序层
Spark, Hive, HBase 计算引擎层
Spark, MapReduce 资源管理层
YARN, Mesos 存储层
HDFS, S3

Spark 不是要取代 Hadoop,而是增强它!常见的搭配是:

  • 存储:Hadoop HDFS(经济可靠的大规模存储)
  • 计算:Spark(高速内存计算)
  • 资源管理:Hadoop YARN(高效的资源调度)

5. 处理流程对比

多次磁盘IO Spark 优化流程 内存计算 输入数据 Pipeline 处理 输出结果 传统 MapReduce 流程 Map 阶段 输入数据 写入磁盘 Shuffle 从磁盘读取 Reduce 阶段 输出结果

6. 为什么要学习 Spark?

  1. 行业标准:大多数大数据岗位要求掌握 Spark
  2. 处理能力:能够处理 PB 级别数据
  3. 灵活性:支持批处理、流处理、机器学习和图计算
  4. 生态系统:丰富的库和活跃的社区支持
  5. 职业发展:掌握 Spark 是大数据工程师的核心技能

其实简单来说,可以看看招聘软件上对数据工程师的要求,大多会提到spark,所以咱的目标很明确,可恶,这里不能发表情包,不然有很多合适的表情包可以放在这

代码示例:创建一个简单的 Spark 应用

python 复制代码
# 导入必要的库
from pyspark.sql import SparkSession

# 创建 SparkSession - 所有 Spark 功能的入口点
spark = SparkSession.builder \
    .appName("MyFirstSparkApp") \          # 设置应用名称
    .config("spark.executor.memory", "2g") \  # 配置执行器内存
    .getOrCreate()                         # 获取或创建会话

# 打印 Spark 版本信息
print(f"Spark version: {spark.version}")

# 创建一个简单的数据集
data = [("Alice", 28), ("Bob", 35), ("Charlie", 42)]
columns = ["Name", "Age"]

# 创建 DataFrame
df = spark.createDataFrame(data, columns)

# 展示数据
df.show()

# 执行简单查询
df.filter(df.Age > 30).show()

# 停止 SparkSession
spark.stop()

输出结果

复制代码
Spark version: 3.3.0
+-------+---+
|   Name|Age|
+-------+---+
|  Alice| 28|
|    Bob| 35|
|Charlie| 42|
+-------+---+

+-------+---+
|   Name|Age|
+-------+---+
|    Bob| 35|
|Charlie| 42|
+-------+---+

只是用python举个例子,不会python也不影响,毕竟实际工作中,应该会有界面化的软件让你直接写sql,但我不想使用公司的软件写博客,就只能用python凑合了

相关推荐
数据库安全15 分钟前
《金融电子化》:构建金融韧性运行安全体系:从灾备管理到主动防御新范式
大数据·安全·金融
菜鸡儿齐25 分钟前
kafka高可靠性
分布式·kafka
GG向前冲41 分钟前
【大数据】Spark MLlib 机器学习流水线搭建
大数据·机器学习·spark-ml
我要升天!2 小时前
Git的原理与使用 -- 基础操作
大数据·服务器·git·elasticsearch
兜兜风d'3 小时前
RabbitMQ 持久性详解
spring boot·分布式·rabbitmq·1024程序员节
blammmp3 小时前
RabbitMQ :概述,Web界面介绍,快速上手,工作模式
java·分布式·rabbitmq
阿里云大数据AI技术3 小时前
云栖实录 | 实时计算 Flink 全新升级 - 全栈流处理平台助力实时智能
大数据·人工智能
鲜枣课堂4 小时前
重新安全定义,IMS算网融合加速企业专网AI+场景落地
大数据·人工智能·安全
Empty_7774 小时前
Ceph分布式存储
分布式·ceph
有谁看见我的剑了?4 小时前
Rocky 9 安装 Elasticsearch分布式集群基于非安全特性
分布式·安全·elasticsearch