Spark,在shell中运行RDD程序

在hdfs中/wcinput中创建一个文件:word2.txt在里面写几个单词

启动hdfs集群

root@hadoop100 \~\]# myhadoop start \[root@hadoop100 \~\]# cd /opt/module/spark-yarn/bin \[root@hadoop100 \~\]# ./spark-shell 写个1+1测试一下 按住ctrl+D退出 进入环境:spark-shell --master yarn 逐个写代码: // 读取文件,得到RDD val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/word2.txt") // 将单词进行切割,得到一个存储全部单词的RDD val rdd2= rdd1.flatMap(line =\> line.split(" ")) // 将单词转换为元组对象,key是单词,value是数字1 val rdd3= rdd2.map(word =\> (word, 1)) // 将元组的value按照key来分组,对所有的value执行聚合操作(相加) val rdd4= rdd3.reduceByKey((num1, num2) =\> num1 + num2) // 收集RDD的数据并打印输出结果 rdd4.collect().foreach(println) // 将结果储存在out111中 rdd.saveAsTextFile("hdfs://hadoop100:8020/out111")在根目录下可见out111文件,文件打开后可以看到,word2.txt文件内单词被拆分RDD的执行过程 ------------------------------------------------ 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 原文链接:https://blog.csdn.net/2401_87076452/article/details/147888293

相关推荐
极光代码工作室7 分钟前
基于Hadoop的日志数据分析系统设计
大数据·hadoop·python·数据分析·数据可视化
武子康21 分钟前
大数据-255 离线数仓 - Apache Atlas 数据血缘与元数据管理实战指南
大数据·后端·apache hive
Fairy要carry25 分钟前
项目01-手搓Agent之loop
前端·javascript·python
递归尽头是星辰27 分钟前
Flink 四大基石:核心原理与实战速查
大数据·人工智能·flink·实时计算
kyriewen34 分钟前
DOM树与节点操作:用JS给网页“动手术”
前端·javascript·面试
米饭同学i37 分钟前
基于腾讯云COS的小程序素材上传功能实现
前端·javascript·react.js
光影少年1 小时前
如何开发一个CLI工具?
javascript·测试工具·前端框架·node.js
哈__1 小时前
ReactNative项目OpenHarmony三方库集成实战:react-native-fingerprint-scanner
javascript·react native·react.js
晴栀ay1 小时前
Generator + RxJS 重构 LLM 流式输出的“丝滑”架构
javascript·后端·llm
jinanwuhuaguo1 小时前
OpenClaw深度沟通渠道-全景深度解构
大数据·开发语言·人工智能·openclaw