大数据Spark(七十七):Action行动算子first、collect和collectAsMap使用案例

文章目录

Action行动算子first、collect和collectAsMap使用案例

一、first使用案例

二、collect使用案例

三、collectAsMap使用案例


Action行动算子first、collect和collectAsMap使用案例

一、first使用案例

返回数据集中第一个元素,first=take(1)。

Java代码:

java 复制代码
SparkConf conf = new SparkConf().setMaster("local").setAppName("FirstTest");
JavaSparkContext sc = new JavaSparkContext(conf);
//first:返回RDD中的第一个元素
String first = sc.parallelize(Arrays.asList("a", "b", "c", "d")).first();
System.out.println(first);
sc.stop();

Scala代码:

Scala 复制代码
val conf: SparkConf = new SparkConf().setMaster("local").setAppName("FirstTest")
val sc = new SparkContext(conf)

//first: 取出RDD中第一个元素
val first: Int = sc.parallelize(Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)).first()
println(first)
sc.stop()

二、collect使用案例

将RDD中所有数据回收到Driver端。

Java代码:

java 复制代码
SparkConf conf = new SparkConf().setMaster("local").setAppName("CollectTest");
JavaSparkContext sc = new JavaSparkContext(conf);

//collect:将RDD中的所有元素收集到Driver端
List<String> collect = sc.parallelize(Arrays.asList("a", "b", "c", "d")).collect();
for (String s : collect) {
    System.out.println(s);
}

sc.stop();

Scala代码:

Scala 复制代码
val conf: SparkConf = new SparkConf().setMaster("local").setAppName("CollectTest")
val sc = new SparkContext(conf)
//collect: 以数组的形式返回RDD中的所有元素
val nums: Array[String] = sc.parallelize(Array("a","b","c","d")).collect()
println(nums.mkString(","))
sc.stop()

三、collectAsMap使用案例

对K,V格式的RDD数据回收为Map<K,V>对象到Driver端。

Java代码:

java 复制代码
SparkConf conf = new SparkConf().setMaster("local").setAppName("CollectTest");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaPairRDD<String, Integer> rdd = sc.parallelizePairs(Arrays.asList(
        new Tuple2<String, Integer>("a", 1),
        new Tuple2<String, Integer>("b", 2),
        new Tuple2<String, Integer>("c", 3)
));

//collectAsMap:将RDD中的元素转换为Map
Map<String, Integer> map = rdd.collectAsMap();
//遍历Map
for (Map.Entry<String, Integer> entry : map.entrySet()) {
    System.out.println(entry.getKey() + " " + entry.getValue());
}

sc.stop();

Scala代码:

Scala 复制代码
val conf: SparkConf = new SparkConf().setMaster("local").setAppName("CollectAsMapTest")
val sc = new SparkContext(conf)

//collectAsMap: 将RDD中的元素转换为Map
val rdd: RDD[(String, Int)] = sc.parallelize(List(("a", 1), ("b", 2), ("c", 3), ("d", 4)))
val map: collection.Map[String, Int] = rdd.collectAsMap()
map.foreach(println)
sc.stop()

  • 📢博客主页:https://lansonli.blog.csdn.net
  • 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
  • 📢本文由 Lansonli 原创,首发于 CSDN博客🙉
  • 📢停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨
相关推荐
财迅通Ai1 天前
6000万吨产能承压 卫星化学迎来战略窗口期
大数据·人工智能·物联网·卫星化学
做个文艺程序员1 天前
私有 LLM 多机多卡分布式推理:Pipeline Parallel vs Tensor Parallel 踩坑全记录
人工智能·分布式
武子康1 天前
大数据-263 实时数仓-Canal 增量订阅与消费原理:MySQL Binlog 数据同步实践
大数据·hadoop·后端
LJ97951111 天前
媒体发布新武器:Infoseek融媒体平台使用指南
大数据·人工智能
科技小花1 天前
AI重塑数据治理:2026年核心方案评估与场景适配
大数据·人工智能·云原生·ai原生
方向研究1 天前
存储芯片生产
大数据
代码青铜1 天前
如何用 Zion 实现 AI 图片分析与电商文案自动生成流程
大数据·人工智能
gaoshengdainzi1 天前
GB/T23448-2019卫生洁具软管专用检测设备全套解决方案
大数据·卫生洁具软管检测设备·软管试验机
talen_hx2961 天前
《零基础入门Spark》学习笔记 Day 13
笔记·学习·spark
foundbug9991 天前
Matlab基于分布式模型预测控制的多固定翼无人机共识控制
分布式·matlab·无人机