使用 IntelliJ IDEA 编写 Spark 应用程序(Scala + Maven)
本教程演示如何使用 IntelliJ IDEA 和 Maven 编写 Spark 应用程序(以 WordCount 程序为例)。运行环境为 Ubuntu 16.04。
- 环境准备
安装 IntelliJ IDEA
(1)从 IntelliJ IDEA 官网 下载安装包。
(2)解压安装包并重命名:
bash
cd ~/下载
sudo tar -zxvf ideaIU-2016.3.4.tar.gz
sudo mv idea-IU-163.12024.16 /usr/local/Intellij
(3)运行 IDEA:
bash
cd /usr/local/Intellij/bin
./idea.sh
(4)选择 Evaluate for free 使用试用版。
(5)为快捷启动创建桌面图标:
bash
cd /usr/share/applications
sudo gedit idea.desktop
在文件中添加以下内容:
bash
[Desktop Entry]
Encoding=UTF-8
Version=1.0
Name=IntelliJ IDEA
GenericName=Java IDE
Comment=IntelliJ IDEA is a code-centric IDE focused on developer productivity.
Exec=/usr/local/Intellij/bin/idea.sh
Icon=/usr/local/Intellij/bin/idea.png
Terminal=false
Type=Application
Categories=Development;IDE
(6)重启系统后,可在启动栏中搜索 IntelliJ IDEA。
-
配置 IntelliJ IDEA
安装 Scala 插件(1)打开 IDEA,依次选择 File -> Settings -> Plugins。
(2)点击 Install JetBrains Plugin,搜索并安装 Scala 插件。
配置 JDK 和 Scala SDK(1)打开 File -> Project Structure。
配置 JDK:
(2)点击左侧 SDKs,添加系统安装的 JDK(假设已安装并配置 Java 环境)。
(3)配置 Scala SDK:
添加已安装的 Scala,并选择 Copy to Project Libraries。
-
创建 Maven 工程文件
新建工程
在 IDEA 主界面选择 Create New Project。
选择 Maven ,点击下一步。
填写 GroupId 和 ArtifactId,例如:
GroupId: dblab
ArtifactId: WordCount
配置项目路径,点击 Finish。
-
配置工程
添加 Scala 框架右键工程名称,选择 Add Framework Support。
勾选 Scala,点击 OK。
设置 Sources Root在 src 文件夹下创建名为 WordCount 的子文件夹。
右键该文件夹,选择 Mark Directory as -> Sources Root。
-
编写代码
创建 Scala 文件(1)在 WordCount 文件夹中右键,选择 New -> Scala Class,创建名为 WordCount 的 object 类型文件。
(2)粘贴以下代码
scala
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
object WordCount {
def main(args: Array[String]) {
val inputFile = "file:///usr/local/spark/mycode/wordcount/word.txt"
val conf = new SparkConf().setAppName("WordCount").setMaster("local")
val sc = new SparkContext(conf)
val textFile = sc.textFile(inputFile)
val wordCount = textFile.flatMap(line => line.split(" "))
.map(word => (word, 1))
.reduceByKey((a, b) => a + b)
wordCount.foreach(println)
}
}
配置 pom.xml
(1)清空 pom.xml 内容,粘贴以下代码:
xml
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>dblab</groupId>
<artifactId>WordCount</artifactId>
<version>1.0-SNAPSHOT</version>
<properties>
<spark.version>2.1.0</spark.version>
<scala.version>2.11</scala.version>
</properties>
<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_${scala.version}</artifactId>
<version>${spark.version}</version>
</dependency>
</dependencies>
<build>
<plugins>
<plugin>
<groupId>org.scala-tools</groupId>
<artifactId>maven-scala-plugin</artifactId>
<version>2.15.2</version>
<executions>
<execution>
<goals>
<goal>compile</goal>
<goal>testCompile</goal>
</goals>
</execution>
</executions>
</plugin>
<plugin>
<artifactId>maven-compiler-plugin</artifactId>
<version>3.6.0</version>
<configuration>
<source>1.8</source>
<target>1.8</target>
</configuration>
</plugin>
</plugins>
</build>
</project>
(2)右键项目名称,选择 Maven -> Reload Project。
- 运行程序
运行 WordCount
(1)打开 WordCount.scala 文件,在代码窗口内右键选择 Run 'WordCount'。
(2)确保输入文件路径 /usr/local/spark/mycode/wordcount/word.txt 存在,文件内容示例:
xml
hello world
hello Hadoop
(3)查看终端输出,结果类似:
xml
(hello, 2)
(world, 1)
(Hadoop, 1)
- 打包为 Jar 文件
导出 Jar 包
(1)打开 File -> Project Structure。
(2)选择 Artifacts -> + -> Jar -> From modules with dependencies。
(3)选择 Main Class 为 WordCount。
(4)删除不必要的文件,只保留 WordCount.jar 和 'WordCount' compile output。
(5)点击 Apply 和 OK。
(6)导出 Jar 文件:
- Build -> Build Artifacts -> Build。
- 导出的 Jar 包存储在out/artifacts/WordCount_jar/WordCount.jar。
- 提交到 Spark 集群运行
(1)将 Jar 包复制到指定路径:
bash
cp /path/to/WordCount.jar /home/hadoop
(2)使用 Spark 提交程序:
bash
/usr/local/spark/bin/spark-submit --class WordCount /home/hadoop/WordCount.jar
(3)查看终端输出,验证结果。
通过以上步骤,你已经完成了使用 IntelliJ IDEA 和 Maven 编写、运行及打包一个简单的 Spark 应用程序!