使用Spark计算WordCount

使用Spark统计单词计数,即Word Count的思路如下:

  1. 首先按行拆分单词,每个单词的初始计数为1
  2. 然后对相同的单词进行合并,并计数累加
  3. 对结果格式化输出

主要使用map,flatmap,reduceByKey算子进行计算统计,代码如下:

scala 复制代码
object WordCount {
    // 单词分隔符
    val delimiter = ","

    def main(args: Array[String]): Unit = {
        // 据说Spark-3.x可使用SPARK_USER环境变量指定用户名
        System.setProperty("user.name", "hdfs")

        // yarn-cluster模式时,只能通过spark-submit.sh方式提交
        val sparkConf = new SparkConf().setAppName("xuxm-test").setMaster("yarn-cluster")
        val sc = SparkContext.getOrCreate(sparkConf)

        // 计算WordCount,可用spark.sparkContext代替sc
        val file = sc.textFile("/Users/Xxx/input/wc_in.txt")
        val words = file.flatMap(line => line.split(delimiter))
        val pairs = words.map(word => (word, 1))
        // 自动按pairs中每个元祖的第一个元素作为key,第二个元素作为value,a和b参数分别表示要合并的相同key的2个元祖的value
        val counts = pairs.reduceByKey((a, b) => a + b)
        val wc = counts.map(p => p._1 + ":" + p._2)
        // 以上计算过程也可简化为如下形式
        // val wc = file.flatMap(_.split(delimiter)).map((_, 1)).reduceByKey(_ + _).map(p => p._1 + ":" + p._2)
        wc.collect().foreach(println) // collect结果是一个Array,也可直接foreach打印
        // 也可结果保存到文件中
        // wc.saveAsTextFile("/Users/Xxx/output/wc_out")
        sc.stop()
    }
}
相关推荐
鸿乃江边鸟20 小时前
Spark Datafusion Comet 向量化Rust Native--CometShuffleExchangeExec怎么控制读写
大数据·rust·spark·native
伟大的大威2 天前
NVIDIA DGX Spark (ARM64/Blackwell) Kubernetes 集群 + GPU Operator 完整部署指南
大数据·spark·kubernetes
小邓睡不饱耶2 天前
深度实战:Spark GraphX构建用户信任网络,精准锁定高价值目标用户(含完整案例)
大数据·spark·php
B站计算机毕业设计超人2 天前
计算机毕业设计hadoop+spark+hive共享单车预测系统 共享单车数据可视化分析 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·hadoop·python·深度学习·spark·毕业设计·课程设计
B站计算机毕业设计超人2 天前
计算机毕业设计Python+Spark+Hadoop+Hive微博舆情分析 微博情感分析可视化 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·hadoop·爬虫·python·spark·cnn·课程设计
yumgpkpm2 天前
华为昇腾300T A2训练、微调Qwen过程,带保姆式命令,麒麟操作系统+鲲鹏CPU
hive·hadoop·华为·flink·spark·kafka·hbase
TTBIGDATA2 天前
【Hue】Ambari开启 Kerberos 后,Hue 使用 Spark SQL出现凭证不统一问题处理
大数据·sql·spark·ambari·kerberos·hue·bigtop
鸿乃江边鸟3 天前
Spark Datafusion Comet 向量化Rust Native--Native算子(CometNativeExec)怎么串联执行
大数据·rust·spark·native
Light603 天前
数智孪生,金流·物流全透视:构建某银行制造业贷后风控新范式—— 基于领码 SPARK 融合平台的技术解决方案
大数据·spark·数字孪生·实时监控·物联网金融·供应链风控·ai决策
小邓睡不饱耶3 天前
基于Spark GraphX构建用户信任网络:精准定位高价值目标用户
大数据·spark·php