如何在IDEA中编写Spark程序

环境搭建

  1. 创建Maven项目
  • 添加Spark依赖(在 pom.xml 中):

<dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-core_2.12</artifactId>

<version>3.5.0</version>

</dependency>

  1. 配置Scala SDK
  • 在IDEA中安装Scala插件,设置项目SDK为Scala版本(如2.12)

编写第一个Spark程序

  1. 创建Scala类

import org.apache.spark.{SparkConf, SparkContext}

object SparkWordCount {

def main(args: Array[String]): Unit = {

val conf = new SparkConf().setAppName("WordCount").setMaster("local[*]")

val sc = new SparkContext(conf)

val text = sc.textFile("input.txt")

val words = text.flatMap(_.split(" "))

val counts = words.map(word => (word, 1)).reduceByKey(_ + _)

counts.saveAsTextFile("output")

sc.stop()

}

}

运行与调试

  • 本地调试:设置 setMaster("local[*]") ,直接在IDEA中运行主类。

  • 提交到集群:

  1. 打包项目为JAR(Maven的 package 命令)。

  2. 执行命令:

spark-submit --master yarn --class SparkWordCount /path/to/your.jar hdfs://input.txt

常见问题

  • 依赖冲突:确保Spark和Hadoop版本兼容,使用 provided scope排除冲突依赖。

  • 日志配置:在 src/main/resources 添加 log4j.properties ,简化日志输出。

相关推荐
CoderIsArt8 分钟前
AI代码编辑器详细实现步骤
人工智能·编辑器
鱼香rose__40 分钟前
tmux和vim
linux·编辑器·vim
Jackson@ML1 天前
2026最新版Visual Studio Code安装使用指南
ide·vscode·编辑器
土豆.exe1 天前
从自动修 Bug 到自主执行脚本:国产 AI 编辑器 IfAI v0.3.1 发布
人工智能·编辑器
New_Horizons6661 天前
VScode 无法使用shift + F12查看引用
ide·vscode·编辑器
tc&1 天前
VSCode远程连接AlmaLinux虚拟机问题总结
ide·vscode·编辑器
徐小夕@趣谈前端1 天前
【推荐】jitword协同文档新增AI公文助手,一键生成红头文件
vue.js·人工智能·开源·编辑器·github
claider1 天前
Vim User Manual 阅读笔记 usr_20.txt Typing command-line commands quickly 快速键入命令行命令
笔记·编辑器·vim
帅次1 天前
Sublime Text 快捷键完全指南
编辑器·sublime text
web守墓人1 天前
【编辑器】简单了解下vscode的go语言插件原理
ide·vscode·编辑器