使用ReduceByKey在Spark中进行词频统计

Spark采用Local模式运行,Spark版本3.2.0,Scala版本2.12,集成idea开发环境。

实验代码

scala 复制代码
import org.apache.spark.{SparkConf, SparkContext}

object ReduceByKey {

  def main(args: Array[String]): Unit = {
    // 创建 SparkConf 并设置相关配置
    val conf = new SparkConf().setAppName("WordCountExample").setMaster("local[*]")

    // 创建 SparkContext
    val sc = new SparkContext(conf)

    // 定义要计数的单词列表
    val wordList = List("hello", "world", "hello", "spark", "world", "spark", "hello")

    // 将列表转换为RDD
    val rdd = sc.parallelize(wordList)

    rdd.foreach(v => println(v))

    // 对单词进行映射计数,相同的键进行累加
    val rdd2 = rdd.map(v => (v, 1)).reduceByKey(_ + _)

    // 打印单词计数结果
    rdd2.foreach(println)

    // 关闭 SparkContext
    sc.stop()
  }
}

在执行 reduceByKey(_ + _) 这一步后,生成的 RDD 将包含每个单词及其对应的累加值,数据结构类似于 (单词, 累加值)。

在上下文中,_ + _ 表示一个匿名函数,用于对两个相同类型的值进行相加操作。在这里,这两个值是指 reduceByKey 函数对于相同键的两个值。具体来说:

第一个 _ 表示相同键的第一个值。

第二个 _ 表示相同键的第二个值。

在这个例子中,键是单词,而值是累加的次数。所以 _ + _ 表示将相同键的值(即累加的次数)相加,以得到该键对应的总累加值。

实验结果

复制代码
hello
hello
spark
world
world
spark
hello

(spark,2)
(hello,3)
(world,2)
相关推荐
2501_938782099 小时前
《大数据框架选型指南:Hadoop 与 Spark 的性能、成本与扩展性对比》
大数据·hadoop·spark
TMT星球10 小时前
AI重构兴趣内容与营销生态,驱动消费全链路升级
大数据·人工智能·重构
HitpointNetSuite10 小时前
科技行业ERP系统选择指南:Oracle NetSuite的全面解析
大数据·科技·netsuite·企业·erp
北邮-吴怀玉10 小时前
6.1.1.3 大数据方法论与实践指南-SparkStreaming 任务优化实践
大数据·flink·spark·数据治理
yangmf204011 小时前
如何使用 INFINI Gateway 增量迁移 ES 数据
大数据·数据库·elasticsearch·搜索引擎·gateway
北邮-吴怀玉12 小时前
8.1.1 大数据方法论与实践指南-埋点需求流程
大数据·数据治理
数智前线12 小时前
筑牢智算“地基”:华为以RAS理念重塑AIDC建设新模式
大数据·人工智能
CAE虚拟与现实13 小时前
论文一篇:加权几何平均组合预测方法对数均方误差的分解
大数据·加权平均
北邮-吴怀玉14 小时前
6.3.3.1 大数据方法论与实践指南-大数据质量度量指标体系
大数据·单例模式
数据智能老司机14 小时前
Apache Hudi权威指南——通过index提高效率
大数据·架构·数据分析