Spark-RDD的依赖

RDD的依赖

rdd之间是有依赖关系

  • 窄依赖
    • 每个父RDD的一个Partition最多被子RDD的一个Partition所使用
    • 父rdd和子rdd的分区是一对一
      • map
      • flatMap
      • fliter
  • 宽依赖
    • 父RDD的Partition会被多个子RDD的Partition所使用
    • 父rdd和子rdd的分区是一对多
      • grouBy()
      • grouByKey()
      • sortBy()
      • sortByKey()
      • reduceBykey()
      • distinct()

rdd1 --> rdd2 -->rdd3

  • Spark中有DAG管理依赖关系

    • DAG叫做有向无环图,是一个图计算算法。
    • 管理rdd依赖关系,保证rdd按照依赖关系进行数据的顺序计算
    • 会根据rdd的依赖关系将计算过程分成多个计算步骤,每个计算步骤称为一个stage
    • 在计算的rdd依赖关系中,一旦发生了宽依赖,就会进行步骤拆分
  • 日志查看依赖关系和计算流程

    服务启动: /export/server/spark/sbin/start-history-server.sh

    程序运行期间查看 4040端口 交互式开发

    程序运行结束后查看 18080端口

    • APP 是计算应用程序
      • job 计算任务 (执行算子 触发计算任务)
        • DAG 管理依赖关系
          • stage 计算步骤的划分
            • task线程 完成该步骤下方法计算
相关推荐
武汉唯众智创4 分钟前
产教融合背景下,高职大数据技术专业“课证融通”课程解决方案
大数据·课证赛创·课证融通·大数据专业·大数据技术专业·高职大数据技术专业
WnHj1 小时前
kafka的数据消费通过flinksql 入数到Doris的报错(Connection timed out)
分布式·kafka
小小王app小程序开发2 小时前
任务悬赏小程序深度细分分析:非技术视角下的运营逻辑拆解
大数据·小程序
非极限码农6 小时前
Neo4j图数据库上手指南
大数据·数据库·数据分析·neo4j
莫叫石榴姐7 小时前
SQL百题斩:从入门到精通,一站式解锁数据世界
大数据·数据仓库·sql·面试·职场和发展
Hello.Reader8 小时前
Flink 状态后端(State Backends)实战原理、选型、配置与调优
大数据·flink
dundunmm11 小时前
【每天一个知识点】[特殊字符] 大数据的定义及单位
大数据
IT森林里的程序猿11 小时前
基于Hadoop的京东电商平台手机推荐系统的设计与实现
大数据·hadoop·智能手机
笨蛋少年派11 小时前
MapReduce简介
大数据·mapreduce
秃头菜狗12 小时前
十四、运行经典案例 wordcount
大数据·linux·hadoop