2023_Spark_实验九:编写WordCount程序(Scala版)

需求:

1、做某个文件的词频统计//某个单词在这个文件出现次数

步骤:

  1. 文件单词规律(空格分开)
  2. 单词切分
  3. 单词的统计(k,v)->(k:单词,V:数量)
  4. 打印

框架:

  1. 单例对象,main()
  2. 创建CONF
  3. 创建SC-->读取文件的方式--》RDD
  4. RDD进行处理
  5. 闭资源关

一、新建object类取名为WordCount

2、编写如下代码

Scala 复制代码
import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
    def main(args: Array[String]): Unit = {
        System.setProperty("hadoop.home.dir","D:\\hadoop\\hadoop-2.8.0")
        val sparkConf= new SparkConf().setAppName("WordCount").setMaster("local") //设置为本地模式

        val sc = new SparkContext(sparkConf)
        sc.setLogLevel("WARN")
        val resultArray = sc.textFile(path = "file:///d:/temp/a.txt")
            .flatMap(_.split(" "))
            .map((_,1))
            .reduceByKey(_+_)
            .collect()
        resultArray.foreach(println )
        sc.stop()
    }

}

3、本地运行,查看运行结果如下:

解决无法下载spark与打包插件的办法

maven打包插件与spark所需依赖下载地址:

链接:百度网盘 请输入提取码

提取码:jnta

解决步骤:

到网盘下载maven打包插件与spark依赖,网盘吗中的内容如下:

  1. 将下载的插件plugins.rar解压,并复制插件文件夹到你本地maven仓库下
  2. 将下载的spark依赖spark.rar解压,并复制spark文件夹到你本地maven仓库下
  3. 重启idea,重新build下工程

将下载的插件plugins.rar解压,并复制插件文件夹到你本地maven仓库下

将下载的spark依赖spark.rar解压,并复制spark文件夹到你本地maven仓库下

重启idea,重新build下工程

相关推荐
支付宝官方开放平台1 小时前
1024「爱码士」活动✖️开发者社区
大数据·c语言·c++·人工智能·python·github·aigc
Data 3171 小时前
Hive数仓操作(二)
大数据·数据库·数据仓库·hive·hadoop
袖清暮雨1 小时前
Flink加载维度数据
大数据·flink
杨超越luckly1 小时前
共享单车轨迹数据分析:以厦门市共享单车数据为例(八)
大数据·服务器·arcgis·数据挖掘·数据分析
有颜有货1 小时前
制造企业各部门如何参与生产成本控制与管理?
大数据·人工智能·制造
小亚文1 小时前
scala 2.12 error: value foreach is not a member of Object
开发语言·后端·scala
世岩清上2 小时前
苏州 数字化科技展厅展馆-「世岩科技」一站式服务商
大数据·人工智能·科技·传媒·媒体
小黑032 小时前
Scala第一天
开发语言·scala
翔云API3 小时前
C#通用文档识别挂接示例、手写体识别接口
大数据·开发语言·node.js·c#·php