rdd

xiaoping.huang5 天前
大数据·spark·rdd
Spark执行计划解析后是如何触发执行的?在前一篇Spark SQL 执行计划解析源码分析中,笔者分析了Spark SQL 执行计划的解析,很多文章甚至Spark相关的书籍在讲完执行计划解析之后就开始进入讲解Stage切分和调度Task执行,每个概念之间没有强烈的关联,因此这中间总感觉少了点什么,执行计划是如何触发执行的?是Spark自动触发的?还是由客户端的代码触发的?本文笔者为了解答这几个疑问,尝试进行了相关代码的分析。
PersistJiao1 个月前
spark·rdd·宽窄依赖
Spark RDD 的宽依赖和窄依赖通俗地理解 Spark RDD 的 宽依赖 和 窄依赖,可以通过以下比喻和解释:假设你在管理多个团队完成工作任务:
PersistJiao1 个月前
大数据·分布式·spark·rdd
Spark RDD(弹性分布式数据集)的深度理解RDD 是分布式计算的核心抽象RDD 的本质从操作到 DAG应用程序与 JobJob、Stage 和 Task 的分解
PersistJiao1 个月前
spark·checkpoint·rdd
Spark RDD Checkpoint 数据的保存机制在 Spark 中,RDD 的 checkpoint 是一种容错机制,用于将 RDD 的数据保存到可靠的存储系统(如 HDFS)中,以便在节点故障时可以从存储中重新加载数据,而不是重新计算依赖链。
PersistJiao1 个月前
大数据·分布式·spark·rdd·sortby
Spark RDD 的 sortBy 和全局排序的理解差异回答 1:sortBy 实现了全局排序回答 2:RDD 不直接提供全局排序算子输出可能是:希望这个回答清晰解答了你的疑惑!
PersistJiao1 个月前
大数据·spark·rdd·底层算子
Spark RDD 的 combineByKey、cogroup 和 compute 算子的作用在面试中如果被问到 Spark RDD 的 combineByKey、cogroup 和 compute 算子的作用,建议从核心作用、实现原理(源码解析) 和 实际应用场景三方面组织答案。
PersistJiao1 个月前
大数据·spark·rdd·shuffle·sortby
Spark RDD sortBy算子什么情况会触发shuffle在 Spark 的 RDD 中,sortBy 是一个排序算子,虽然它在某些场景下可能看起来是分区内排序,但实际上在需要全局排序时会触发 Shuffle。这里我们分析其底层逻辑,结合源码和原理来解释为什么会有 Shuffle 的发生。
PersistJiao1 个月前
spark·rdd·算子·join
Spark RDD各种join算子从源码层分析实现方式在 Spark RDD 中,join、leftOuterJoin、rightOuterJoin、fullOuterJoin 等多个 Join 操作符都使用了 cogroup 进行底层实现。cogroup 是 Spark 中的一种底层分组操作,可以将两个或多个 RDD 中同一键的数据分组到一起,为各种 Join 操作提供了基础。下面我们从源码实现角度来分析这些 Join 操作符的实现原理,并列出相关的核心代码。
PersistJiao1 个月前
大数据·spark·rdd·compute
Spark RDD 的 compute 方法角度一compute 是 Spark RDD 中的核心方法之一。 它定义了如何从特定的分区中获取数据,并返回一个 迭代器,供上层操作使用。每个 RDD 的计算逻辑由 compute 方法决定,不同类型的 RDD 会有不同的实现。
PersistJiao1 个月前
spark·源码分析·rdd·聚合算子
Spark RDD中常用聚合算子源码层面的对比分析在 Spark RDD 中,groupByKey、reduceByKey、foldByKey 和 aggregateByKey 是常用的聚合算子,适用于按键进行数据分组和聚合。它们的实现方式各不相同,涉及底层调用的函数也有区别。以下是对这些算子在源码层面的分析,以及每个算子适用的场景和代码示例。
lzhlizihang2 个月前
spark·转换算子·rdd·rdd算子·触发算子
【RDD算子的分类】RDD的转换算子和触发算子(行为算子)、以及各个算子的作用,对比sql中的关键字都是lazy模式的,一般不会触发job的运行,算子返回值一定是RDD转换算子有哪些:filter、map、flatMap、union、distinct、groupByKey、reduceByKey、sortBy、sortByKey、repartition、coalesce、keys、values、mapValues、join fullOuterJoin leftOuterJoin rightOuterJoin、 mapPartitions
问道飞鱼3 个月前
分布式·spark·rdd
弹性分布式数据集RDD详细说明弹性分布式数据集RDD(Resilient Distributed Dataset)是Apache Spark中最基本的数据抽象,代表一个不可变、可分区、元素可以并行计算的数据集合。以下是对RDD的详细说明:
howard20056 个月前
rdd·每日新增用户数
任务3.8.3 利用RDD统计每日新增用户统计给定用户访问历史数据中,每日的新增用户数量。启动 Spark Shell:读取数据:倒排索引:按键分组:
howard20057 个月前
java·scala·rdd·映射算子
利用映射算子打印菱形
howard20057 个月前
rdd·扁平映射算子
RDD实战:扁平映射算子 - flatMap()
howard20057 个月前
rdd
3.1 掌握RDD的创建在Apache Spark中,RDD(Resilient Distributed Dataset)是一个基本的、不可变的、分布式的和可分区的数据集。它能够自动进行容错处理,并支持在大规模集群上的并行操作。RDD之间存在依赖关系,可以实现管道化,避免了中间数据的存储。
破坏神在行动7 个月前
数据仓库·hadoop·spark·rdd·思维导图xmind
Hadoop+Spark大数据技术(微课版)曾国荪、曹洁版 第六章 第6次作业 Spark简介与RDD编程高速处理:Spark利用内存计算和优化的执行计划,能够实现比传统MapReduce更高效的数据处理。容错性:Spark提供了弹性分布式数据集(RDD)作为基本抽象,通过RDD的容错性和恢复机制,保证了数据处理的稳定性。
封奚泽优8 个月前
运维·服务器·spark·scala·rdd
RDD编程初级实践spark入门实战系列--8MLlib spark 实战_mob6454cc68310b的技术博客_51CTO博客https://blog.51cto.com/u_16099212/7454034
阿年、嗯啊1 年前
大数据·分布式·spark·rdd·rdd的5个主要特性
横扫Spark之 - RDD(Resilient Distributed Dataset)弹性分布式数据集水善利万物而不争,处众人之所恶,故几于道💦RDD就是Spark中的一种数据抽象,比如下面的代码(不用管他是干啥的)很多操作的返回值就直接是一个RDD类型。代码里面RDD就是一个抽象类   你可以理解成函数,但是Spark里面它不叫函数,它同样封装的是对数据的操作,a操作的返回值类型是一个RDD,b又基于a的结果进行操作 返回值的类型又是一个RDD…你可以想象成套娃,就比如下图
有语忆语1 年前
spark·rdd·sparkcore
SparkCore基础解析(二)RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。