Spark-RDD的依赖

中长跑路上crush2024-01-17 19:36

RDD的依赖

rdd之间是有依赖关系

窄依赖
- 每个父RDD的一个Partition最多被子RDD的一个Partition所使用
- 父rdd和子rdd的分区是一对一
  - map
  - flatMap
  - fliter
宽依赖
- 父RDD的Partition会被多个子RDD的Partition所使用
- 父rdd和子rdd的分区是一对多
  - grouBy()
  - grouByKey()
  - sortBy()
  - sortByKey()
  - reduceBykey()
  - distinct()

rdd1 --> rdd2 -->rdd3

Spark中有DAG管理依赖关系
- DAG叫做有向无环图，是一个图计算算法。
- 管理rdd依赖关系，保证rdd按照依赖关系进行数据的顺序计算
- 会根据rdd的依赖关系将计算过程分成多个计算步骤，每个计算步骤称为一个stage
- 在计算的rdd依赖关系中，一旦发生了宽依赖，就会进行步骤拆分
日志查看依赖关系和计算流程

服务启动： /export/server/spark/sbin/start-history-server.sh

程序运行期间查看 4040端口交互式开发

程序运行结束后查看 18080端口
- APP 是计算应用程序
  - job 计算任务（执行算子触发计算任务）
    - DAG 管理依赖关系
      - stage 计算步骤的划分
        
        task线程完成该步骤下方法计算

上一篇：DaisyDisk for mac 中文激活版可视化磁盘清理工具

下一篇：PC-lint Plus在安全系统中的应用

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04AI科技热点日报 | 2026年07月01日 05国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）06幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 10【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……