使用idea开发spark程序

新建scala 项目

创建lib目录

将spark jars/ 路径下所有jar 复制到 lib目录

添加依赖

创建scala 程序

Scala 复制代码
package spark

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
  def main(args: Array[String]): Unit = {
    
    val conf = new SparkConf().setAppName("WordCount").setMaster("local") //本地模式
    //    val conf = new SparkConf().setAppName("WordCount") //集群模式s
    val sc = new SparkContext(conf)

    val result = sc.textFile("hdfs://bigdata112:9000/user/test001.txt")
      .flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
      .collect
    result.foreach(println)

    println("Hello, World!")
  }
  
}

准备测试数据

上传hdfs

hdfs dfs -put test001.txt /user/

运行程序

相关推荐
AI视觉网奇1 小时前
pycharm 左右箭头 最近编辑
ide·python·pycharm
思绪无限1 小时前
Pycharm的终端无法使用Anaconda命令行问题详细解决教程
ide·python·pycharm·终端·命令行·anaconda·问题教程
漫步云端-r1 小时前
Pycharm的使用技巧总结
ide·python·pycharm
朝新_1 小时前
【多线程初阶】阻塞队列 & 生产者消费者模型
java·开发语言·javaee
立莹Sir1 小时前
Calendar类日期设置进位问题
java·开发语言
季鸢3 小时前
Java设计模式之状态模式详解
java·设计模式·状态模式
@yanyu6664 小时前
springboot实现查询学生
java·spring boot·后端
ascarl20104 小时前
准确--k8s cgroup问题排查
java·开发语言
magic 2454 小时前
Lombok 的 @Data 注解失效,未生成 getter/setter 方法引发的HTTP 406 错误
java
爱敲代码的憨仔4 小时前
分布式协同自动化办公系统-工作流引擎-流程设计
java·flowable·oa