Spark,在shell中运行RDD程序

在hdfs中/wcinput中创建一个文件:word2.txt在里面写几个单词

启动hdfs集群

root@hadoop100 \~\]# myhadoop start \[root@hadoop100 \~\]# cd /opt/module/spark-yarn/bin \[root@hadoop100 \~\]# ./spark-shell 写个1+1测试一下 按住ctrl+D退出 进入环境:spark-shell --master yarn 逐个写代码: // 读取文件,得到RDD val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/word2.txt") // 将单词进行切割,得到一个存储全部单词的RDD val rdd2= rdd1.flatMap(line =\> line.split(" ")) // 将单词转换为元组对象,key是单词,value是数字1 val rdd3= rdd2.map(word =\> (word, 1)) // 将元组的value按照key来分组,对所有的value执行聚合操作(相加) val rdd4= rdd3.reduceByKey((num1, num2) =\> num1 + num2) // 收集RDD的数据并打印输出结果 rdd4.collect().foreach(println) // 将结果储存在out111中 rdd.saveAsTextFile("hdfs://hadoop100:8020/out111")在根目录下可见out111文件,文件打开后可以看到,word2.txt文件内单词被拆分RDD的执行过程 ------------------------------------------------ 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 原文链接:https://blog.csdn.net/2401_87076452/article/details/147888293

相关推荐
zhensherlock16 小时前
Protocol Launcher 系列:Working Copy 文件操作与高级命令详解
javascript·git·typescript·node.js·自动化·github·js
pingao1413781 天前
智联未来:4G温湿度传感器如何重塑数据监测新生.态
大数据·网络·人工智能
MXN_小南学前端1 天前
watch详解:与computed 对比以及 Vue2 / Vue3 区别
前端·javascript·vue.js
数新网络1 天前
告别“数据沼泽”,拥抱“活水湖”:数新智能基于CyberEngine与Apache Paimon的新一代数据湖仓架构
大数据
Mr Xu_1 天前
从后端数据到前端图表:深入解析 reduce 与 flatMap 的数据整形实战
前端·javascript
实习僧企业版1 天前
如何为中小企业点亮校招吸引力的灯塔
大数据·春招·雇主品牌·招聘技巧·口碑
塔能物联运维1 天前
高密度机柜满载怎么办?热管理的“最后一厘米”:两相液冷
大数据
喜欢吃鱿鱼1 天前
DES加解密(附带解决转义问题)-VUE
开发语言·前端·javascript
Jenlybein1 天前
速学 VS Code 插件开发入门,客制化你的开发体验
前端·javascript·visual studio code
王苏安说钢材A1 天前
无锡佳钛合不锈钢有限公司三通的焊接工艺
大数据