运行Spark程序-在Idea中(二)

(四) 使用Maven创建新项目

核心的操作步骤如下:

1.启动idea,选择新建项目。

2.将Scala添加到全局库中。

3.设置maven依赖项。修改pom.xml文件,添加如下:


4.下载依赖。添加完成之后,刷新Maven,它会帮助我们去下载依赖。

5.编写代码。修改文件夹的名字。

6.新建Scala类。如果这里没有看到Scala类的选项,就去检查第2步。

选择Object,输入WordCount


7.编写代码如下

它的功能是wordcount的功能:从指定的文件夹中去读取文件,并做词频统计。


8.准备待统计的词频文件。在项目根目录下建立文件夹input,并穿件两个文本文件:word1.txt, word2.txt。如下图。


9.运行代码。点击运行代码。

10生成结果如上右图。

相关推荐
不吃饭的猪1 小时前
记一次spark在docker本地启动报错
大数据·docker·spark
欧亚学术2 小时前
计算机网络领域所有CCF-A/B/C类期刊汇总!
大数据·计算机网络·计算机·论文·sci·期刊·发表
江瀚视野2 小时前
虎扑正式易主,迅雷完成收购会带来什么变化?
大数据·区块链
QYR_113 小时前
宠物车载安全座椅市场报告:解读行业趋势与投资前景
大数据·人工智能
Leo.yuan3 小时前
实时数据仓库是什么?数据仓库设计怎么做?
大数据·数据库·数据仓库·数据分析·spark
@BreCaspian3 小时前
Git 推送失败解决教程——error: failed to push some refs to
大数据·git·elasticsearch
Java斌4 小时前
70年使用权的IntelliJ IDEA Ultimate安装教程
java·ide·intellij-idea
郭泽元6 小时前
递归树形菜单:优雅处理层级数据的利器
大数据
viperrrrrrrrrr76 小时前
大数据学习(130)-zookeeper
大数据·学习·zookeeper
火龙谷7 小时前
【hadoop】Davinci数据可视化工具的安装部署
大数据·hadoop·分布式