【无标题】如何在sheel中运行Spark

启动hdfs集群,打开hadoop100:9870,在wcinput目录下上传一个包含很多个单词的文本文件。

启动之后在spark-shell中写代码。

// 读取文件,得到RDD

val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/words.txt")

// 将单词进行切割,得到一个存储全部单词的RDD

val rdd2= fileRDD.flatMap(line => line.split(" "))

// 将单词转换为元组对象,key是单词,value是数字1

val rdd3= wordsRDD.map(word => (word, 1))

// 将元组的value按照key来分组,对所有的value执行聚合操作(相加)

val rdd4= wordsWithOneRDD.reduceByKey((a, b) => a + b)

// 收集RDD的数据并打印输出结果

相关推荐
二闹1 分钟前
一招帮你记住上次读到哪儿了?
前端
li理5 分钟前
核心概念:Navigation路由生命周期是什么
前端
古夕8 分钟前
my-first-ai-web_问题记录02:Next.js 15 动态路由参数处理
前端·javascript·react.js
梦里寻码8 分钟前
自行食用 uniapp 多端 手写签名组件
前端·uni-app
前端小白199511 分钟前
面试取经:工程化篇-webpack性能优化之热替换
前端·面试·前端工程化
随笔记1 小时前
使用vite新搭建react项目,都需要配置什么?
前端·react.js·vite
JiangJiang1 小时前
🩸 一次失败的降级迁移尝试 **从 Vite + React 19 到 CRA + React 17 的 IE 兼容血泪史**
前端
moyu841 小时前
静态声明与动态拦截:从Object.defineProperty到Proxy
前端
kuxku1 小时前
下一代前端工具链浅析
前端·架构
清风不问烟雨z1 小时前
不仅仅是 Mock 服务:mock-h3,让前端也能优雅拥有后端能力
前端·javascript·vite