Spark-RDD的依赖

RDD的依赖

rdd之间是有依赖关系

  • 窄依赖
    • 每个父RDD的一个Partition最多被子RDD的一个Partition所使用
    • 父rdd和子rdd的分区是一对一
      • map
      • flatMap
      • fliter
  • 宽依赖
    • 父RDD的Partition会被多个子RDD的Partition所使用
    • 父rdd和子rdd的分区是一对多
      • grouBy()
      • grouByKey()
      • sortBy()
      • sortByKey()
      • reduceBykey()
      • distinct()

rdd1 --> rdd2 -->rdd3

  • Spark中有DAG管理依赖关系

    • DAG叫做有向无环图,是一个图计算算法。
    • 管理rdd依赖关系,保证rdd按照依赖关系进行数据的顺序计算
    • 会根据rdd的依赖关系将计算过程分成多个计算步骤,每个计算步骤称为一个stage
    • 在计算的rdd依赖关系中,一旦发生了宽依赖,就会进行步骤拆分
  • 日志查看依赖关系和计算流程

    服务启动: /export/server/spark/sbin/start-history-server.sh

    程序运行期间查看 4040端口 交互式开发

    程序运行结束后查看 18080端口

    • APP 是计算应用程序
      • job 计算任务 (执行算子 触发计算任务)
        • DAG 管理依赖关系
          • stage 计算步骤的划分
            • task线程 完成该步骤下方法计算
相关推荐
科技小花3 小时前
全球化深水区,数据治理成为企业出海 “核心竞争力”
大数据·数据库·人工智能·数据治理·数据中台·全球化
whuang0944 小时前
腾讯云 emr 无法以cosn 写入云存储
spark
weixin_370976355 小时前
AI的终极赛跑:进入AGI,还是泡沫破灭?
大数据·人工智能·agi
小江的记录本6 小时前
【Kafka核心】架构模型:Producer、Broker、Consumer、Consumer Group、Topic、Partition、Replica
java·数据库·分布式·后端·搜索引擎·架构·kafka
一切皆是因缘际会7 小时前
AI数字分身的底层原理:破解意识、自我与人格复刻的核心难题
大数据·人工智能·ai·架构
上海光华专利事务所7 小时前
跨境电商商标专利管理平台
大数据·产品运营
Elastic 中国社区官方博客8 小时前
ES|QL METRICS_INFO 和 TS_INFO:为你的时间序列数据建立目录
大数据·数据库·elasticsearch·搜索引擎·信息可视化·全文检索
jinanwuhuaguo9 小时前
(第二十七篇)OpenClaw四月的演化风暴:OpenClaw 2026年4月全版本更新的文明级解读
大数据·人工智能·架构·kotlin·openclaw
清晨00110 小时前
工业生产实时数据获取方案-TDengine
大数据·时序数据库·tdengine
极创信息10 小时前
信创产品认证怎么做?信创产品测试认证的主要流程
java·大数据·数据库·金融·软件工程