2023_Spark_实验十:RDD基础算子操作

Ø练习 1:

Scala 复制代码
//通过并行化生成 rdd

val rdd1 = sc.parallelize(List(5, 6, 4, 7, 3, 8, 2, 9, 1, 10))

//对 rdd1 里的每一个元素乘 2 然后排序

val rdd2 = rdd1.map(_ * 2).sortBy(x => x, true)

//过滤出大于等于十的元素

val rdd3 = rdd2.filter(_ >= 10)

//将元素以数组的方式在客户端显示

rdd3.collect

Ø 练习 2:

Scala 复制代码
val rdd1 = sc.parallelize(Array("a b c", "d e f", "h i j"))

//将 rdd1 里面的每一个元素先切分在压平

val rdd2 = rdd1.flatMap(_.split(' '))

rdd2.collect

Ø 练习 3:

Scala 复制代码
val rdd1 = sc.parallelize(List(5, 6, 4, 3))

val rdd2 = sc.parallelize(List(1, 2, 3, 4))

//求并集

val rdd3 = rdd1.union(rdd2)

//求交集

val rdd4 = rdd1.intersection(rdd2)

//去重

rdd3.distinct.collect

rdd4.collect

Ø 练习 4:

Scala 复制代码
val rdd1 = sc.parallelize(List(("tom", 1), ("jerry", 3), ("kitty", 2)))

val rdd2 = sc.parallelize(List(("jerry", 2), ("tom", 1), ("shuke", 2)))

//求 jion

val rdd3 = rdd1.join(rdd2)

rdd3.collect

//求并集

val rdd4 = rdd1 union rdd2

//按 key 进行分组

val rdd5=rdd4.groupByKey

rdd5.collect

Ø 练习 5:

Scala 复制代码
val rdd1 = sc.parallelize(List(("tom", 1), ("tom", 2), ("jerry", 3), ("kitty", 2)))

val rdd2 = sc.parallelize(List(("jerry", 2), ("tom", 1), ("shuke", 2)))

//cogroup

val rdd3 = rdd1.cogroup(rdd2)

//注意 cogroup 与 groupByKey 的区别

groupByKey

groupByKey会将RDDkey,value按照相同的key进行分组,形成RDDkey,iterable\[value]的形式,有点类似于sql中的groupby,例如类似于mysql中的group_contact

cogroup

groupByKey是对单个RDD的数据进行分组,还可以使用一个叫作cogroup()的函数对多个共享同一个键的RDD进行分组

例:RDD1.cogroup(RDD2)会将RDD1和RDD2按照相同的key进行分组,得到(key,RDDkey,Iterable\[value1,Iterablevalue2])的形式

cogroup也可以多个进行分组

例:RDD1.cogroup(RDD2,RDD3,...RDDN),可以得到

(key,Iterablevalue1,Iterablevalue2,Iterablevalue3,...,IterablevalueN)

rdd3.collect

Ø 练习 6:

Scala 复制代码
val rdd1 = sc.parallelize(List(1, 2, 3, 4, 5,6,7,8,9,10))

//reduce 聚合

val rdd2 = rdd1.reduce(_ + _)

//rdd2.collect

Ø 练习 7:

Scala 复制代码
val rdd1 = sc.parallelize(List(("tom", 1), ("jerry", 3), ("kitty", 2), ("shuke", 1)))

val rdd2 = sc.parallelize(List(("jerry", 2), ("tom", 3), ("shuke", 2), ("kitty", 5)))

val rdd3 = rdd1.union(rdd2)

//按 key 进行聚合

val rdd4 = rdd3.reduceByKey(_ + _)

rdd4.collect

//按 value 的降序排序

val rdd5 = rdd4.map(t => (t._2, t._1)).sortByKey(false).map(t => (t._2, t._1))

rdd5.collect
相关推荐
峥嵘life5 分钟前
Android getprop 属性限制详解:User 版本属性获取问题分析
android·开发语言·python·学习
云天AI实战派14 分钟前
跨境出海全流程实战:用 Medusa + Hyperswitch + ClickHouse 搭建落地页、支付订阅、客服工单与多语言 SEO 闭环
大数据·人工智能·clickhouse·独立开发·跨境出海·medusa
团象科技29 分钟前
中企赴欧跨境业务布局期 欧洲主权云服务的落地适配性观察
大数据
陕西企来客1 小时前
陕西旅游酒店 GEO 服务市场深度调查:AI 搜索优化格局与真实服务真相
大数据·人工智能·旅游
一航jason1 小时前
Speed Tools:一套低侵入的 Android 插件化 + 动态换肤 + 字体切换框架
android·插件化·组件化·换肤
MemoriKu1 小时前
【端侧 AI 部署】MobileCLIP 导出 ONNX/TFLite 并发布到 Hugging Face 的完整实践
大数据·人工智能·elasticsearch·搜索引擎·重构·开源
VALENIAN瓦伦尼安教学设备1 小时前
激光对中仪应用行业及全球市场份额解析
大数据·人工智能·嵌入式硬件
一次旅行2 小时前
AI 技术热点新闻简报|2026-05-30
大数据·人工智能
逸Y 仙X2 小时前
文章五:Elasticsearch安全通信
java·大数据·安全·elasticsearch·搜索引擎·全文检索·jenkins
HannahTx2 小时前
录音文件存在哪里方便整理查找?全场景存储方案对比
大数据