大数据Spark(八十):Action行动算子fold和aggregate使用案例

文章目录

Action行动算子fold和aggregate使用案例

一、fold使用案例

二、aggregate使用案例


Action行动算子fold和aggregate使用案例

一、fold使用案例

fold用于对RDD中的元素进行聚合操作,最终返回一个结果。类似reduce算子,但与reduce不同的是其可以对每个分区中的数据提供一个初始值,让分区中的数据与该初始值进行聚合,最终该初始值还会与各个分区的结果再次聚合。

fold的函数签名如下:

Scala 复制代码
def fold(zeroValue: T)(op: (T, T) => T): T
  • zeroValue:聚合操作的初始值,类型为 T。
  • op:用于合并元素的二元操作函数。

fold的工作原理:在每个分区内,fold 使用初始值 zeroValue 和二元操作函数 op,将该分区内的所有元素进行聚合。在所有分区内的聚合完成后,fold 将各分区的结果与初始值 zeroValue 一起,使用相同的二元操作函数 op 进行全局聚合,得到最终结果。

Java代码:

java 复制代码
SparkConf conf = new SparkConf().setMaster("local").setAppName("FoldTest");
JavaSparkContext sc = new JavaSparkContext(conf);

JavaRDD<String> rdd = sc.parallelize(Arrays.asList("a","b","c","d","e","f"), 3);
rdd.mapPartitionsWithIndex(new Function2<Integer, Iterator<String>, Iterator<String>>() {
    @Override
    public Iterator<String> call(Integer index, Iterator<String> iter) throws Exception {
        ArrayList<String> list = new ArrayList<>();
        while (iter.hasNext()) {
            String next = iter.next();
            list.add("rdd partition index: " + index + " current value: " + next);
        }
        return list.iterator();
    }
},true).foreach(x-> System.out.println(x));

/**
 * 0号分区:a b
 * 1号分区:c d
 * 2号分区:e f
 *
 * 0号分区:hello~a~b
 * 1号分区:hello~c~d
 * 2号分区:hello~e~f
 *
 * 最终结果:hello~hello~a~b~hello~c~d~hello~e~f
 */
String str = rdd.fold("hello", new Function2<String, String, String>() {
    @Override
    public String call(String v1, String v2) throws Exception {
        return v1 + "~" + v2;
    }
});

System.out.println(str);
sc.stop();

Scala代码:

Scala 复制代码
val conf = new SparkConf().setMaster("local").setAppName("FoldTest")
val sc = new SparkContext(conf)

val rdd: RDD[String] = sc.parallelize(List("a", "b", "c", "d", "e", "f"), 3)
rdd.mapPartitionsWithIndex((index, iter) => {
  val list = new ListBuffer[String]()
  while (iter.hasNext) {
    list.append(s"rdd partition index: $index ,current value: ${iter.next()}")
  }
  list.iterator
}).foreach(println)

/**
 * 0号分区:a b
 * 1号分区:c d
 * 2号分区:e f
 * map端聚合:
 * 0号分区:hello~a~b
 * 1号分区:hello~c~d
 * 2号分区:hello~e~f
 *
 * 最终结果:hello~hello~a~b~hello~c~d~hello~e~f
 */
val result: String = rdd.fold("hello")((v1, v2) => {
  v1 + "~" + v2
})

println(result)

sc.stop()

二、aggregate使用案例

aggregate用于对RDD中的元素进行聚合操作,最终返回一个结果。与 fold 和 reduce 等算子不同,aggregate 允许用户分别定义分区内和分区间的聚合函数,提供了更大的灵活性。

aggregate函数签名如下:

Scala 复制代码
def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U
  • zeroValue:聚合操作的初始值,类型为 U。
  • seqOp:分区内的聚合函数,用于将分区内的元素与累加器进行合并,类型为 (U, T) => U。
  • combOp:分区间的聚合函数,用于将不同分区的累加器结果进行合并,类型为 (U, U) => U

aggregate工作原理:在每个分区内,使用初始值 zeroValue 和函数 seqOp,将该分区内的所有元素进行聚合。在所有分区内的聚合完成后,使用初始值 zeroValue 和函数 combOp,将各分区的结果进行全局聚合,得到最终结果。

Java代码:

java 复制代码
SparkConf conf = new SparkConf().setMaster("local").setAppName("AggregateTest");
JavaSparkContext sc = new JavaSparkContext(conf);

JavaRDD<String> rdd = sc.parallelize(Arrays.asList("a","b","c","d","e","f"), 3);
rdd.mapPartitionsWithIndex(new Function2<Integer, Iterator<String>, Iterator<String>>() {
    @Override
    public Iterator<String> call(Integer index, Iterator<String> iter) throws Exception {
        ArrayList<String> list = new ArrayList<>();
        while (iter.hasNext()) {
            String next = iter.next();
            list.add("rdd partition index: " + index + " current value: " + next);
        }
        return list.iterator();
    }
},true).foreach(x-> System.out.println(x));

/**
 * 0号分区:a b
 * 1号分区:c d
 * 2号分区:e f
 *
 * map端聚合:
 * 0号分区:hello~a~b
 * 1号分区:hello~c~d
 * 2号分区:hello~e~f
 *
 * 最终结果:hello@hello~a~b@hello~c~d@hello~e~f
 */
String result = rdd.aggregate("hello", new Function2<String, String, String>() {

    @Override
    public String call(String s1, String s2) throws Exception {
        return s1 + "~" + s2;
    }
}, new Function2<String, String, String>() {
    @Override
    public String call(String s1, String s2) throws Exception {
        return s1 + "@" + s2;
    }
});

System.out.println(result);
sc.stop();

Scala代码:

Scala 复制代码
val conf = new SparkConf().setMaster("local").setAppName("FoldTest")
val sc = new SparkContext(conf)

val rdd: RDD[String] = sc.parallelize(List("a", "b", "c", "d", "e", "f"), 3)
rdd.mapPartitionsWithIndex((index, iter) => {
  val list = new ListBuffer[String]()
  while (iter.hasNext) {
    list.append(s"rdd partition index: $index ,current value: ${iter.next()}")
  }
  list.iterator
}).foreach(println)

val result: String = rdd.aggregate("hello")(
  (v1, v2) => {
    v1 + "~" + v2
  },
  (v1, v2) => {
    v1 + "@" + v2
  }
)

println(result)
sc.stop()

  • 📢博客主页:https://lansonli.blog.csdn.net
  • 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
  • 📢本文由 Lansonli 原创,首发于 CSDN博客🙉
  • 📢停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨
相关推荐
孟俊宇-MJY17 小时前
CSDN AI数字营销全功能实测
大数据·人工智能
施企云17 小时前
有哪些好用的基建工程物资管理系统,施企云工程物资云案例分享
大数据
zhangrelay17 小时前
2000-2025 年适龄升学智能大模型整理数据
大数据·笔记·学习
YangYang9YangYan17 小时前
2026高中物理成绩优异学生报考大数据专业的可行性分析
大数据
heimeiyingwang17 小时前
【架构实战】日志体系设计:从ELK到可观测性的演进
分布式·缓存·架构
RD_daoyi17 小时前
GEO优化能为企业带来哪些价值?
大数据·人工智能·学习·搜索引擎·chatgpt
RD_daoyi17 小时前
Google SEO 第六周:外链建设与网站权重提升 —— 让排名直冲首页的终极推力
大数据·学习·搜索引擎
段一凡-华北理工大学18 小时前
工业领域的Hadoop架构学习~系列文章17:Hadoop性能调优- 调度集群每一分性能
大数据·人工智能·hadoop·分布式·学习·架构·高炉炼铁
KaMeidebaby18 小时前
卡梅德生物技术快报|蛋白定制:ACE 抑制肽原辅料工艺全参数|适配蛋白定制的提取 & 酶解标准化实操手册
大数据·人工智能·架构·spark·新浪微博
团象科技18 小时前
中小出海团队运维观察:WordPress站点境外云环境搭建实操路径梳理
大数据·运维·人工智能