06-Spark 进阶指南:架构原理与 Alluxio 加速
如果说上一篇指南告诉你 Spark 是一辆"法拉利",那么这一篇我们将打开引擎盖,看看里面的汽缸是怎么工作的,以及如何给它加装一个"氮气加速器" (Alluxio)。
1. 谁在指挥?谁在干活?(Driver vs Executor)
在 Spark 集群里,角色分工非常明确,像极了一个建筑施工队。
A. Driver (包工头/设计师)
- 职责:它不干体力活(不处理具体的每一行数据)。
- 工作流 :
- 看图纸:读取你写的代码 main() 函数。
- 拆解任务 (DAG):它极其聪明,把你复杂的逻辑拆解成第一步干啥、第二步干啥(生成执行计划)。
- 招人:向 YARN(资源管理器)申请资源,启动 Executor。
- 发号施令:告诉 Executor A 去处理 1-100 行,告诉 Executor B 去处理 101-200 行。
- 验收:最后把大家算好的结果收集回来 (Collect)。
B. Executor (搬砖工人)
- 职责:只管埋头苦干。
- 特性 :
- 分散:分布在几十几百台机器上。
- 执行:Driver 让怎么算就怎么算(Map, Filter)。
- 缓存:数据读进来后,如果内存够大,就揣在兜里(Block Manager),下次要用直接掏出来,不用再去仓库(HDFS)拿。
2. RDD 的"懒人智慧" (Lazy Evaluation)
RDD (弹性分布式数据集) 是 Spark 数据处理的基本单元。它有个非常有意思的特性:特别懒。
Spark 的操作分为两类:
A. Transformation (转换操作) - "光说不练"
- 指令 :
map,filter,flatMap - 场景 :
- 你告诉 Spark:"把这些数据里的'苹果'挑出来 (filter)"。
- 再告诉它:"把挑出来的苹果都切成两半 (map)"。
- 结果 :Spark 根本不动! 它只是在小本本上记下来要做这两件事。这叫"构建逻辑计划"。
B. Action (行动操作) - "既往不咎"
- 指令 :
count,collect,saveAsTextFile - 场景 :
- 你大喊一声:"告诉我一共切了多少个苹果?(count)"
- 结果 :Spark 此时才真正开动。Driver 一声令下,Executor 开始从头读数据、挑苹果、切苹果、数数。
- 优势:这种"拖延症"其实是种大智慧。因为 Spark 可以统筹全局优化,比如把"挑苹果"和"切苹果"合并在一步里做完,不用存中间结果。
3. Spark 的氮气加速器:Alluxio
在您提供的参考资料中,提到了大量的 Alluxio 集成。这是 Spark 在云原生和存算分离架构下的最佳搭档。
为什么需要 Alluxio?
- 痛点:Spark 虽然计算快(法拉利),但 HDFS/S3(仓库)可能离得很远或者由于网络拥堵读得很慢。法拉利经常要在仓库门口排队等货。
- Alluxio 的作用 :分布式缓存层 。
- 它把常用的数据,从 HDFS/S3 预加载到离计算节点最近的内存里。
- Spark 不用去连 S3 了,直接连 Alluxio。
怎么用?(配置速览)
配置 Spark 连接 Alluxio 通常只需要改那个"访问路径"和一点点配置:
-
改路径:
- 原代码:
spark.read.parquet("s3a://my-bucket/data") - 新代码:
spark.read.parquet("alluxio://zk-master:19998/data") - 注:直接把 Alluxio 当做文件系统用。
- 原代码:
-
加依赖:
- 需要把
alluxio-client.jar放到 Spark 的driver和executor的 classpath 里。 - 通常在
spark-defaults.conf里配置spark.driver.extraClassPath。
- 需要把
-
Spark Connect 场景:
- 如果您在使用 Spark Connect 等 Client-Server 模式,记得 Worker 节点上也需要有 Alluxio 的客户端配置 (
alluxio-site.xml),否则 Worker 不知道怎么解析alluxio://协议。
- 如果您在使用 Spark Connect 等 Client-Server 模式,记得 Worker 节点上也需要有 Alluxio 的客户端配置 (
总结
- Driver 是大脑,Executor 是四肢。
- RDD 是个聪明的懒汉,不见 Action 不撒鹰。
- Alluxio 给数据加了也是内存级的缓存,让 Spark 彻底告别 IO 等待。