怎么样才能在idea中写入spark程序

一、准备环境

1.安装Scala插件

专业版IDEA自带Scala插件,社区版需手动安装

确保插件版本与IDEA版本匹配

2.选择用哪个构建工具

sbt‌:适用于依赖管理简单、快速迭代的项目,需提前安装sbt工具24。

Maven‌:适合熟悉Java生态、需复杂依赖管理的场景。

二、创建项目

方式1:sbt项目

  1. 新建项目时选择‌sbt‌作为构建系统。
  2. 配置Scala版本与Spark兼容(如Spark 3.5.5对应Scala 2.12.x)。
  3. 勾选"添加示例代码"生成标准目录结构4。

方式2:Maven项目

  1. 新建Maven项目,填写GroupId/ArtifactId。
  2. 删除默认生成的src模块,新建子模块管理代码。

三、配置依赖

sbt项目

在build.sbt中添加:

Scala 复制代码
libraryDependencies += "org.apache.spark" %% "spark-core" % "3.5.5"
// 其他组件如
spark-sql、spark-streaming等按需添加:ml-citation{ref="2,4" 
data="citationList"}

Maven项目

在pom.xml中添加

XML 复制代码
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.12</artifactId>
    <version>3.5.5</version>
</dependency>:ml-citation{ref="5,7" data="citationList"}

四、编写Spark程序

1.创建Scala类

在目录下新建Scala文件

例如:

Scala 复制代码
import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
      .setAppName("WordCount")
      .setMaster("local")  // 本地模式运行,集群模式需注释此行:ml-citation{ref="1,7" data="citationList"}
    val sc = new SparkContext(conf)
    sc.setLogLevel("ERROR")  // 减少日志输出:ml-citation{ref="1" data="citationList"}

    val textFile = sc.textFile("hdfs://path/to/input.txt")  // 或本地文件路径
    val wordCounts = textFile
      .flatMap(_.split(" "))
      .map((_, 1))
      .reduceByKey(_ + _)
    wordCounts.collect().foreach(println)
    sc.stop()
  }
}

五、运行与调试

1.直接运行

点击代码编辑区左侧的绿色三角按钮运行主类。

2.sbt编译

通过 sbt she ll执行 run 命令 编译并运行

3.本地模式验证

使用setMaster("local")快速测试逻辑,无需连接集群。


注意:

版本兼容性:Spark版本需与Scala版本严格匹配

依赖同步:sbt/Maven修改依赖后需手动同步配置(sbt点刷新按钮,Maven执行mvn clean install------)

相关推荐
寻星探路8 分钟前
【深度长文】万字攻克网络原理:从 HTTP 报文解构到 HTTPS 终极加密逻辑
java·开发语言·网络·python·http·ai·https
曹牧2 小时前
Spring Boot:如何测试Java Controller中的POST请求?
java·开发语言
爬山算法3 小时前
Hibernate(90)如何在故障注入测试中使用Hibernate?
java·后端·hibernate
kfyty7253 小时前
集成 spring-ai 2.x 实践中遇到的一些问题及解决方案
java·人工智能·spring-ai
猫头虎3 小时前
如何排查并解决项目启动时报错Error encountered while processing: java.io.IOException: closed 的问题
java·开发语言·jvm·spring boot·python·开源·maven
李少兄3 小时前
在 IntelliJ IDEA 中修改 Git 远程仓库地址
java·git·intellij-idea
忆~遂愿4 小时前
ops-cv 算子库深度解析:面向视觉任务的硬件优化与数据布局(NCHW/NHWC)策略
java·大数据·linux·人工智能
小韩学长yyds4 小时前
Java序列化避坑指南:明确这4种场景,再也不盲目实现Serializable
java·序列化
仟濹4 小时前
【Java基础】多态 | 打卡day2
java·开发语言
Re.不晚4 小时前
JAVA进阶之路——无奖问答挑战2
java·开发语言