1. 新建项目
打开 IntelliJ IDEA,选择File
-> New
-> Project
,接着在左侧菜单中选取Maven
或者Gradle
(此处以 Maven 为例),然后点击Next
。
为项目命名,指定存储位置,再点击Finish
。
2. 添加 Spark 依赖
打开项目中的pom.xml
文件,添加 Spark 依赖。以下是一个包含核心、SQL、Streaming 依赖的示例:
xml
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.example</groupId>
<artifactId>spark-project</artifactId>
<version>1.0-SNAPSHOT</version>
<properties>
<maven.compiler.source>1.8</maven.compiler.source>
<maven.compiler.target>1.8</maven.compiler.target>
</properties>
<dependencies>
<!-- Spark Core -->
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.12</artifactId>
<version>3.4.1</version>
</dependency>
<!-- Spark SQL -->
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.12</artifactId>
<version>3.4.1</version>
</dependency>
<!-- Spark Streaming -->
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming_2.12</artifactId>
<version>3.4.1</version>
</dependency>
</dependencies>
</project>
添加完依赖后,Maven 会自动下载这些库。
3. 编写 Spark 程序
在src/main/java
目录下创建一个 Java 类(如果使用 Scala 则在src/main/scala
目录下创建 Scala 类),以下是一个简单的 Java Spark 程序示例:
doubaocanvas:
spark-program-in-idea在 IntelliJ IDEA 中编写的 Spark 程序
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import java.util.Arrays;
import java.util.List;
public class SparkExample {
public static void main(String[] args) {
// 创建 SparkConf 对象
SparkConf conf = new SparkConf().setAppName("SparkExample").setMaster("local[*]");
// 创建 JavaSparkContext 对象
JavaSparkContext sc = new JavaSparkContext(conf);
// 创建一个包含整数的列表
List<Integer> data = Arrays.asList(1, 2, 3, 4, 5);
// 将列表转换为 JavaRDD
JavaRDD<Integer> rdd = sc.parallelize(data);
// 对 RDD 中的每个元素进行平方操作
JavaRDD<Integer> squaredRDD = rdd.map(x -> x * x);
// 收集结果并打印
List<Integer> result = squaredRDD.collect();
for (Integer num : result) {
System.out.println(num);
}
// 关闭 JavaSparkContext
sc.close();
}
}
生成 SparkExample.java
4. 运行程序
在编写好代码后,你可以点击 IDE 中的运行按钮或者使用快捷键Shift + F10
来运行程序。
5. 配置 Spark 运行环境(可选)
如果你想将程序提交到集群上运行,需要配置相应的运行环境。在Run
-> Edit Configurations
中,修改VM options
为:
plaintext
-Dspark.master=yarn -Dspark.submit.deployMode=cluster
6. 打包程序(可选)
若要将程序提交到集群运行,需将项目打包成 JAR 文件。在Maven Projects
面板中,双击package
目标进行打包,生成的 JAR 文件会存于target
目录下。
通过以上步骤,你就能在 IntelliJ IDEA 中编写、运行和提交 Spark 程序了。