使用 IntelliJ IDEA 编写 Spark 应用程序(Scala + Maven)

使用 IntelliJ IDEA 编写 Spark 应用程序(Scala + Maven)

本教程演示如何使用 IntelliJ IDEA 和 Maven 编写 Spark 应用程序(以 WordCount 程序为例)。运行环境为 Ubuntu 16.04。

  1. 环境准备

安装 IntelliJ IDEA

(1)从 IntelliJ IDEA 官网 下载安装包。

(2)解压安装包并重命名:

bash 复制代码
cd ~/下载
sudo tar -zxvf ideaIU-2016.3.4.tar.gz
sudo mv idea-IU-163.12024.16 /usr/local/Intellij

(3)运行 IDEA:

bash 复制代码
cd /usr/local/Intellij/bin
./idea.sh

(4)选择 Evaluate for free 使用试用版。

(5)为快捷启动创建桌面图标:

bash 复制代码
cd /usr/share/applications
sudo gedit idea.desktop

在文件中添加以下内容:

bash 复制代码
[Desktop Entry]
Encoding=UTF-8
Version=1.0
Name=IntelliJ IDEA
GenericName=Java IDE
Comment=IntelliJ IDEA is a code-centric IDE focused on developer productivity.
Exec=/usr/local/Intellij/bin/idea.sh
Icon=/usr/local/Intellij/bin/idea.png
Terminal=false
Type=Application
Categories=Development;IDE

(6)重启系统后,可在启动栏中搜索 IntelliJ IDEA。

  1. 配置 IntelliJ IDEA
    安装 Scala 插件

    (1)打开 IDEA,依次选择 File -> Settings -> Plugins。

    (2)点击 Install JetBrains Plugin,搜索并安装 Scala 插件。
    配置 JDK 和 Scala SDK

    (1)打开 File -> Project Structure。

    配置 JDK:

    (2)点击左侧 SDKs,添加系统安装的 JDK(假设已安装并配置 Java 环境)。

    (3)配置 Scala SDK:

    添加已安装的 Scala,并选择 Copy to Project Libraries。

  2. 创建 Maven 工程文件

    新建工程

    在 IDEA 主界面选择 Create New Project。

    选择 Maven ,点击下一步。

    填写 GroupId 和 ArtifactId,例如:

    GroupId: dblab

    ArtifactId: WordCount

    配置项目路径,点击 Finish

  3. 配置工程
    添加 Scala 框架

    右键工程名称,选择 Add Framework Support。

    勾选 Scala,点击 OK。
    设置 Sources Root

    在 src 文件夹下创建名为 WordCount 的子文件夹。

    右键该文件夹,选择 Mark Directory as -> Sources Root。

  4. 编写代码
    创建 Scala 文件

    (1)在 WordCount 文件夹中右键,选择 New -> Scala Class,创建名为 WordCount 的 object 类型文件。

    (2)粘贴以下代码

scala 复制代码
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf

object WordCount {
  def main(args: Array[String]) {
    val inputFile = "file:///usr/local/spark/mycode/wordcount/word.txt"
    val conf = new SparkConf().setAppName("WordCount").setMaster("local")
    val sc = new SparkContext(conf)
    val textFile = sc.textFile(inputFile)
    val wordCount = textFile.flatMap(line => line.split(" "))
      .map(word => (word, 1))
      .reduceByKey((a, b) => a + b)
    wordCount.foreach(println)
  }
}

配置 pom.xml

(1)清空 pom.xml 内容,粘贴以下代码:

xml 复制代码
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>dblab</groupId>
    <artifactId>WordCount</artifactId>
    <version>1.0-SNAPSHOT</version>
    <properties>
        <spark.version>2.1.0</spark.version>
        <scala.version>2.11</scala.version>
    </properties>
    <dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
    </dependencies>
    <build>
        <plugins>
            <plugin>
                <groupId>org.scala-tools</groupId>
                <artifactId>maven-scala-plugin</artifactId>
                <version>2.15.2</version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.6.0</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
        </plugins>
    </build>
</project>

(2)右键项目名称,选择 Maven -> Reload Project。

  1. 运行程序
    运行 WordCount
    (1)打开 WordCount.scala 文件,在代码窗口内右键选择 Run 'WordCount'。

(2)确保输入文件路径 /usr/local/spark/mycode/wordcount/word.txt 存在,文件内容示例:

xml 复制代码
hello world
hello Hadoop

(3)查看终端输出,结果类似:

xml 复制代码
(hello, 2)
(world, 1)
(Hadoop, 1)
  1. 打包为 Jar 文件
    导出 Jar 包

(1)打开 File -> Project Structure。

(2)选择 Artifacts -> + -> Jar -> From modules with dependencies

(3)选择 Main Class 为 WordCount。

(4)删除不必要的文件,只保留 WordCount.jar 和 'WordCount' compile output。

(5)点击 Apply 和 OK。

(6)导出 Jar 文件:

  • Build -> Build Artifacts -> Build。
  • 导出的 Jar 包存储在out/artifacts/WordCount_jar/WordCount.jar。
  1. 提交到 Spark 集群运行
    (1)将 Jar 包复制到指定路径:
bash 复制代码
cp /path/to/WordCount.jar /home/hadoop

(2)使用 Spark 提交程序:

bash 复制代码
/usr/local/spark/bin/spark-submit --class WordCount /home/hadoop/WordCount.jar

(3)查看终端输出,验证结果。

通过以上步骤,你已经完成了使用 IntelliJ IDEA 和 Maven 编写、运行及打包一个简单的 Spark 应用程序!

相关推荐
得物技术6 天前
深入剖析Spark UI界面:参数与界面详解|得物技术
大数据·后端·spark
肌肉娃子10 天前
20260227.spark.Spark 性能刺客:千万别在 for 循环里写 withColumn
spark
B站计算机毕业设计超人11 天前
计算机毕业设计Django+Vue.js音乐推荐系统 音乐可视化 大数据毕业设计 (源码+文档+PPT+讲解)
大数据·vue.js·hadoop·python·spark·django·课程设计
十月南城11 天前
数据湖技术对比——Iceberg、Hudi、Delta的表格格式与维护策略
大数据·数据库·数据仓库·hive·hadoop·spark
zxfBdd11 天前
Error:scala: No ‘scala-library*.jar‘ in Scala compiler classpath in Scala SDK
大数据·scala·jar
Asher050911 天前
Spark核心基础与架构全解析
大数据·架构·spark
FYKJ_201015 天前
springboot大学校园论坛管理系统--附源码42669
java·javascript·spring boot·python·spark·django·php
鸿乃江边鸟17 天前
Spark Datafusion Comet 向量化Rust Native--Native算子ScanExec以及涉及到的Selection Vectors
大数据·rust·spark·arrow
派可数据BI可视化18 天前
一文读懂系列:数据仓库为什么分层,分几层?数仓建模方法有哪些
大数据·数据仓库·信息可视化·spark·商业智能bi