如何在idea中写spark程序。

在 IntelliJ IDEA 中开发 Spark 程序需配置环境、创建项目并添加依赖，以下是详细步骤：

一、准备环境

安装 Java/Scala

确保已安装 JDK 1.8+（Spark 3.x 推荐 JDK 11+）和 Scala SDK（版本与 Spark 兼容，如 Spark 3.3.2 对应 Scala 2.12）。
在 IDEA 中配置：
打开 File > Project Structure > SDKs ，添加 JDK 和 Scala SDK。

下载 Spark 依赖

访问 Maven Repository 搜索 spark-core_2.12 和 spark-sql_2.12 （根据 Scala 版本选择），记录最新版本号（如 3.3.2 ）。

二、创建 Maven 项目

新建项目

打开 IDEA，选择 Create New Project > Maven > Empty Project ，设置项目路径和名称（如 spark-demo ）。

添加 Maven 依赖

修改 pom.xml ，添加 Spark 依赖（注意排除 Hadoop 依赖，避免版本冲突）：

xml

<groupId>org.apache.spark</groupId>

<artifactId>spark-core_2.12</artifactId>

<scope>provided</scope>

</dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-sql_2.12</artifactId>

<scope>provided</scope>

</dependency>

</dependencies>

scope=provided 表示本地开发时使用已安装的 Spark 环境，打包时不包含依赖（部署时需依赖集群的 Spark 运行时）。

三、配置 Spark 运行环境

下载 Spark 二进制包

从 Spark 官网下载对应版本的预编译包（如 spark-3.3.2-bin-hadoop3 ），解压到本地（如 C:\spark ）。

设置环境变量

在系统环境变量中添加 SPARK_HOME=C:\spark ，并将 %SPARK_HOME%\bin 添加到 PATH 中。

IDEA 中配置 Spark 路径

打开 File > Settings > Build, Execution, Deployment > Application Servers ，添加 Spark 路径（指向解压后的 spark-3.3.2-bin-hadoop3 目录）。

四、编写 Spark 程序

创建 Scala 类

在 src/main/scala 目录下创建包（如 com.example ），新建 Scala 类（如 WordCount.scala ）。

编写代码示例（WordCount）

scala

import org.apache.spark

{SparkConf, SparkContext}

object WordCount {

def main(args: Array[String]): Unit = {

// 配置 Spark

val conf = new SparkConf()

.setAppName("WordCount")

.setMaster("local[*]") // 本地调试用，部署时改为 "yarn" 或 "spark://master:7077"

val sc = new SparkContext(conf)

// 读取文本文件

val lines = sc.textFile("input.txt")

val words = lines.flatMap(_.split(" "))

val wordCounts = words.map(word => (word, 1)).reduceByKey(_ + _)

// 保存结果

wordCounts.saveAsTextFile("output")

sc.stop()

}

关键说明：
setMaster("local[*]") 用于本地调试，代表使用本地所有线程。
实际部署时需移除 setMaster ，或改为集群地址（如 yarn 或 spark://master:7077 ）。

五、本地调试运行

配置运行参数

点击 IDEA 右上角 Edit Configurations > + > Application ，设置：
Main Class：填入主类全路径（如 com.example.WordCount ）。
VM Options（可选）：添加 -Dspark.driver.host=localhost 避免网络问题。

运行程序

将测试文件（如 input.txt ）放在项目根目录或指定路径，点击运行按钮，结果会输出到指定目录（如 output ）。

六、打包与部署

打包成 JAR

在 pom.xml 中添加打包插件：

xml

<build>

<groupId>org.apache.maven.plugins</groupId>

<artifactId>maven-assembly-plugin</artifactId>

<descriptorRef>jar-with-dependencies</descriptorRef>

</descriptorRefs>

</configuration>

<id>make-assembly</id>

<phase>package</phase>

<goals>

<goal>single</goal>

</goals>

</execution>

</executions>

</plugin>

</plugins>

</build>

执行 mvn clean package 生成 spark-demo-1.0-SNAPSHOT-jar-with-dependencies.jar 。

提交到集群

bash

spark-submit \

--master yarn \

--deploy-mode cluster \

--class com.example.WordCount \

/path/to/your/jar/spark-demo-1.0-SNAPSHOT-jar-with-dependencies.jar

常见问题

依赖冲突：若出现 ClassNotFoundException ，检查 Maven 依赖版本是否与集群 Spark 一致。
本地调试失败：确保 setMaster("local[*]") 正确，且文件路径为本地绝对路径。
Scala 版本不兼容：在 pom.xml 中确认 artifactId 与 Scala 版本匹配（如 spark-core_2.12 对应 Scala 2.12）。