技术栈
rdd
howard2005
3 个月前
rdd
·
每日新增用户数
任务3.8.3 利用RDD统计每日新增用户
统计给定用户访问历史数据中,每日的新增用户数量。启动 Spark Shell:读取数据:倒排索引:按键分组:
howard2005
4 个月前
java
·
scala
·
rdd
·
映射算子
利用映射算子打印菱形
howard2005
4 个月前
rdd
·
扁平映射算子
RDD实战:扁平映射算子 - flatMap()
howard2005
4 个月前
rdd
3.1 掌握RDD的创建
在Apache Spark中,RDD(Resilient Distributed Dataset)是一个基本的、不可变的、分布式的和可分区的数据集。它能够自动进行容错处理,并支持在大规模集群上的并行操作。RDD之间存在依赖关系,可以实现管道化,避免了中间数据的存储。
破坏神在行动
4 个月前
数据仓库
·
hadoop
·
spark
·
rdd
·
思维导图xmind
Hadoop+Spark大数据技术(微课版)曾国荪、曹洁版 第六章 第6次作业 Spark简介与RDD编程
高速处理:Spark利用内存计算和优化的执行计划,能够实现比传统MapReduce更高效的数据处理。容错性:Spark提供了弹性分布式数据集(RDD)作为基本抽象,通过RDD的容错性和恢复机制,保证了数据处理的稳定性。
封奚泽优
5 个月前
运维
·
服务器
·
spark
·
scala
·
rdd
RDD编程初级实践
spark入门实战系列--8MLlib spark 实战_mob6454cc68310b的技术博客_51CTO博客https://blog.51cto.com/u_16099212/7454034
阿年、嗯啊
8 个月前
大数据
·
分布式
·
spark
·
rdd
·
rdd的5个主要特性
横扫Spark之 - RDD(Resilient Distributed Dataset)弹性分布式数据集
水善利万物而不争,处众人之所恶,故几于道💦RDD就是Spark中的一种数据抽象,比如下面的代码(不用管他是干啥的)很多操作的返回值就直接是一个RDD类型。代码里面RDD就是一个抽象类 你可以理解成函数,但是Spark里面它不叫函数,它同样封装的是对数据的操作,a操作的返回值类型是一个RDD,b又基于a的结果进行操作 返回值的类型又是一个RDD…你可以想象成套娃,就比如下图
有语忆语
8 个月前
spark
·
rdd
·
sparkcore
SparkCore基础解析(二)
RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。
ha_lydms
1 年前
大数据
·
sql
·
spark
·
转换算子
·
行动算子
·
rdd
Spark-Core核心算子
在其它执行步骤完成后,生成新的RDD对象从集合中创建从文件中创建以分区为单位执行的map()扁平化(合并流)