利用scala书写spark程序实现wordCount

实验环境:虚拟机(centos)上创建了三台集群,部署了Hadoop,words文档放在HDFS上的目录下

所用版本如下:

<hadoop.version>2.7.7</hadoop.version>

<spark.version>2.4.5</spark.version>

<scala.version>2.12.10</scala.version>

步骤

代码详解

方法一:

scala 复制代码
object readData {
  def main(args: Array[String]): Unit = {
  	// 创建一个本地运行的 Spark 应用程序,并且设置了应用程序的名称为 "readData"
    val spark=SparkSession.builder().appName("readData").master("local[*]").getOrCreate();
    // HDFS目录路径
    val hdfsPath = "hdfs://你的节点ip:9000/路径/文件名";
    // 读取文本文件
    val lines = spark.read.textFile(hdfsPath).rdd
    // 单词计数
    val wordCounts = lines
      .flatMap(line => line.split(" ")) // 根据空格切分单词
      .map(word => (word, 1))
      .reduceByKey(_ + _)
    // 输出结果
    wordCounts.collect().foreach(println)
    // 停止 SparkSession
    spark.stop();
  }
}

方法二:

scala 复制代码
object readData {
  def main(args: Array[String]): Unit = {
    // HDFS目录路径
    val hdfsPath = "hdfs://你的节点ip:9000/路径/文件名";
	//1. 创建 conf 对象
    val conf = new SparkConf().setAppName("WordCount").setMaster("local[*]")
    //2. 创建 SparkContext 对象:提交应用的入口
    val sc = new SparkContext(conf)
    //3. 执行单词统计
    val res = sc.textFile(hdfsPath).flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect;
    //4. 遍历输出结果
    res.foreach(println);
    // 停止 SparkSession
    sc.stop()
  }
}

说明:

  • 使用 SparkContext 和 SparkConf 是传统的方式,适用于 Spark 1.x 版本。它们提供了基本的 Spark 功能,但使用起来可能相对复杂,需要更多的配置和管理。
  • 使用 SparkSession 是 Spark 2.x 版本中推荐的方式。它集成了 Spark SQL,使得你可以更方便地使用 DataFrame 和 Dataset API 来处理结构化数据,而不需要额外导入其他的 API。此外,SparkSession 也可以自动管理 SparkContext,使得整个应用程序的管理更加简单。
  • flatMap 是一个转换操作,主要用于将结果扁平化(这里是将切分后的文本转换为多个单词作为输出)
  • map 是一个转换操作,它将输入RDD中的每个元素映射为一个新的元素(这里是映射为(key,1)键值对的形式)
  • reduceByKey 是一个转换操作,它将具有相同键的元素聚合在一起,并对它们的值进行合并
相关推荐
极光代码工作室17 天前
基于数据仓库的电商数据分析平台
大数据·hadoop·python·spark·数据可视化
JLWcai2025100917 天前
铸造领域树脂砂轮|金利威多场景解决方案,20 + 配方覆盖全需求
mongodb·zookeeper·eureka·spark·rabbitmq·memcached·storm
ACP广源盛1392462567317 天前
GSV9001S@ACP#1080P 级视频处理芯片,物理 AI 普及终端的高性价比选择
大数据·人工智能·分布式·嵌入式硬件·spark
木心术117 天前
AMD Ryzen AI Halo与NVIDIA RTX Spark/DGX Spark两款AI个人主机的差异和优劣势
大数据·人工智能·spark
ACP广源盛1392462567318 天前
GSV5600@ACP#多接口协议转换芯片,物理 AI 便携终端的互联核心
大数据·人工智能·分布式·嵌入式硬件·spark
KaMeidebaby18 天前
卡梅德生物技术快报 | 噬菌体展示 12 肽文库在蛋白表位定位中的应用与实验数据
大数据·人工智能·架构·spark·新浪微博
ACP广源盛1392462567319 天前
GSV2221@ACP#DP 1.4 MST 多屏转换芯片,物理 AI 多模态交互的视觉中枢
大数据·人工智能·嵌入式硬件·gpt·spark
想ai抽19 天前
Spark Executor 因节点内存超限被杀的分析与应对
大数据·性能优化·spark
simidagogogo19 天前
生产环境推荐系统最隐蔽的坑:Training-Serving Skew 详解与实战
算法·spark·推荐算法
ACP广源盛1392462567319 天前
GSV6155@ACP#DP 1.4a 重定时器芯片,物理 AI 信号长距传输的稳定保障
大数据·人工智能·分布式·嵌入式硬件·spark