如何在 IntelliJ IDEA 中创建和编写 Spark 程序
创建 SPARK 项目
要在 IntelliJ IDEA 中创建一个 Spark 项目,可以按照以下方法操作:
-
启动 IntelliJ IDEA 并新建 Maven 项目 打开 IntelliJ IDEA,选择 "File -> New Project",然后选择 "Maven" 作为构建工具。确保勾选 "Create from archetype",并选择适合的 Scala 和 Spark 版本的相关依赖项。
-
设置 JDK 和 Scala SDK 在项目的初始配置界面中指定 Java SDK(推荐使用 JDK 1.8)。接着,在后续步骤中添加 Scala 插件支持,并选择对应的 Scala 版本(如 Scala-2.11.8)。
-
引入必要的依赖库 编辑
pom.xml
文件来声明所需的 Spark 库和其他可能需要用到的第三方库。例如: -
<dependencies>
<!-- Spark Core Dependency -->
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.3.2</version>
</dependency>
<!-- Additional Dependencies as Needed -->
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.12</version>
<scope>test</scope>
</dependency>
</dependencies>
-
编写第一个 Spark 程序 新建一个 Scala 类文件,比如命名为
SimpleApp.scala
,并在其中实现基础逻辑。下面展示了一个简单的 WordCount 实现案例: -
import org.apache.spark.sql.SparkSession
object SimpleApp {
def main(args: Array[String]): Unit = {
val logFile = args(0) // Should be some file on your system
val spark = SparkSession.builder.appName("Simple Application").getOrCreate()
val logData = spark.read.textFile(logFile).cache()
val numAs = logData.filter(line => line.contains("a")).count()
val numBs = logData.filter(line => line.contains("b")).count()
println(s"Lines with a: numAs, Lines with b: numBs")
spark.stop()
}
}
-
运行程序 配置好运行参数之后就可以直接点击 Run 按钮执行该应用程序了。可以通过右键菜单或者顶部工具栏中的绿色三角形按钮完成这一步骤。