【无标题】如何在sheel中运行Spark

启动hdfs集群,打开hadoop100:9870,在wcinput目录下上传一个包含很多个单词的文本文件。

启动之后在spark-shell中写代码。

// 读取文件,得到RDD

val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/words.txt")

// 将单词进行切割,得到一个存储全部单词的RDD

val rdd2= fileRDD.flatMap(line => line.split(" "))

// 将单词转换为元组对象,key是单词,value是数字1

val rdd3= wordsRDD.map(word => (word, 1))

// 将元组的value按照key来分组,对所有的value执行聚合操作(相加)

val rdd4= wordsWithOneRDD.reduceByKey((a, b) => a + b)

// 收集RDD的数据并打印输出结果

相关推荐
湛海不过深蓝5 分钟前
【ts】defineProps数组的类型声明
前端·javascript·vue.js
layman052811 分钟前
vue 中的数据代理
前端·javascript·vue.js
柒七爱吃麻辣烫18 分钟前
前端项目打包部署流程j
前端
火星papa19 分钟前
C# 通过ConfigurationManager读写配置文件App.Config
c#·配置文件·app.config
bicijinlian24 分钟前
.Net HttpClient 处理响应数据
c#·.net·httpclient·.net httpclient
layman05281 小时前
vue中理解MVVM
前端·javascript·vue.js
编程乐趣1 小时前
一个.Net开源的关系管理系统
开源·c#·.net
一舍予2 小时前
八股文-js篇
开发语言·前端·javascript
鸡鸭扣3 小时前
DRF/Django+Vue项目线上部署:腾讯云+Centos7.6(github的SSH认证)
前端·vue.js·python·django·腾讯云·drf
龙井茶Sky3 小时前
验证码与登录过程逻辑学习总结
前端·登录·验证码