Spark,在shell中运行RDD程序

在hdfs中/wcinput中创建一个文件:word2.txt在里面写几个单词

启动hdfs集群

root@hadoop100 \~\]# myhadoop start \[root@hadoop100 \~\]# cd /opt/module/spark-yarn/bin \[root@hadoop100 \~\]# ./spark-shell 写个1+1测试一下 按住ctrl+D退出 进入环境:spark-shell --master yarn 逐个写代码: // 读取文件,得到RDD val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/word2.txt") // 将单词进行切割,得到一个存储全部单词的RDD val rdd2= rdd1.flatMap(line =\> line.split(" ")) // 将单词转换为元组对象,key是单词,value是数字1 val rdd3= rdd2.map(word =\> (word, 1)) // 将元组的value按照key来分组,对所有的value执行聚合操作(相加) val rdd4= rdd3.reduceByKey((num1, num2) =\> num1 + num2) // 收集RDD的数据并打印输出结果 rdd4.collect().foreach(println) // 将结果储存在out111中 rdd.saveAsTextFile("hdfs://hadoop100:8020/out111")在根目录下可见out111文件,文件打开后可以看到,word2.txt文件内单词被拆分RDD的执行过程 ------------------------------------------------ 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 原文链接:https://blog.csdn.net/2401_87076452/article/details/147888293

相关推荐
依年南台22 分钟前
搭建大数据学习的平台
大数据·学习
weifont32 分钟前
React中的useSyncExternalStore使用
前端·javascript·react.js
初遇你时动了情37 分钟前
js fetch流式请求 AI动态生成文本,实现逐字生成渲染效果
前端·javascript·react.js
几何心凉1 小时前
如何使用 React Hooks 替代类组件的生命周期方法?
前端·javascript·react.js
小堃学编程1 小时前
前端学习(1)—— 使用HTML编写一个简单的个人简历展示页面
前端·javascript·html
张人玉2 小时前
数据可视化大屏——物流大数据服务平台(二)
大数据·信息可视化
Leo.yuan3 小时前
数据分析怎么做?高效的数据分析方法有哪些?
大数据·数据库·信息可视化·数据挖掘·数据分析
运维@小兵3 小时前
vue访问后端接口,实现用户注册
前端·javascript·vue.js
雨汨3 小时前
web:InfiniteScroll 无限滚动
前端·javascript·vue.js
小盐巴小严3 小时前
正则表达式
javascript·正则表达式