【无标题】如何在sheel中运行Spark

启动hdfs集群,打开hadoop100:9870,在wcinput目录下上传一个包含很多个单词的文本文件。

启动之后在spark-shell中写代码。

// 读取文件,得到RDD

val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/words.txt")

// 将单词进行切割,得到一个存储全部单词的RDD

val rdd2= fileRDD.flatMap(line => line.split(" "))

// 将单词转换为元组对象,key是单词,value是数字1

val rdd3= wordsRDD.map(word => (word, 1))

// 将元组的value按照key来分组,对所有的value执行聚合操作(相加)

val rdd4= wordsWithOneRDD.reduceByKey((a, b) => a + b)

// 收集RDD的数据并打印输出结果

相关推荐
幻灵尔依10 分钟前
前端编码统一规范
javascript·vue.js·代码规范
欢脱的小猴子10 分钟前
VUE3加载cesium,导入czml的星座后页面卡死BUG 修复
前端·vue.js·bug
高级测试工程师欧阳12 分钟前
CSS 基础概念
前端·css·css3
前端小巷子12 分钟前
JS 实现图片瀑布流布局
前端·javascript·面试
Juchecar19 分钟前
AI教你常识之 npm / pnpm / package.json
前端
薛定谔的猫226 分钟前
前端工程化系列(一):编码规范相关
前端·代码规范·前端工程化
ZKshun29 分钟前
[ 前端性能优化 - 图片压缩 ] WebP格式的的图片性能到底有多优秀?
前端
杜蒙33 分钟前
React Hooks 详解
前端·javascript
南囝coding33 分钟前
Claude Code 从入门到精通:最全配置指南和工具推荐
前端·后端
索马里亚纳海参炒贩34 分钟前
useCallback useMemo memo 三个区别和作用
前端·react native