如何在sheel中运行Spark

启动hdfs集群,打开hadoop100:9870,在wcinput目录下上传一个包含很多个单词的文本文件。

启动之后在spark-shell中写代码。


// 读取文件,得到RDD

val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/words.txt")

// 将单词进行切割,得到一个存储全部单词的RDD

val rdd2= fileRDD.flatMap(line => line.split(" "))

// 将单词转换为元组对象,key是单词,value是数字1

val rdd3= wordsRDD.map(word => (word, 1))

// 将元组的value按照key来分组,对所有的value执行聚合操作(相加)

val rdd4= wordsWithOneRDD.reduceByKey((a, b) => a + b)

// 收集RDD的数据并打印输出结果

rdd4.collect().foreach(println)

相关推荐
数据猿4 小时前
【金猿CIO展】如康集团CIO 赵鋆洲:数智重塑“顶牛”——如康集团如何用大数据烹饪万亿肉食产业的未来
大数据
txinyu的博客5 小时前
HTTP服务实现用户级窗口限流
开发语言·c++·分布式·网络协议·http
独自破碎E5 小时前
RabbitMQ中的Prefetch参数
分布式·rabbitmq
zxsz_com_cn6 小时前
设备预测性维护的意义 工业设备预测性维护是什么
大数据
深蓝电商API6 小时前
Scrapy+Rredis实现分布式爬虫入门与优化
分布式·爬虫·scrapy
samLi06207 小时前
【数据集】中国杰出青年名单数据集(1994-2024年)
大数据
成长之路5147 小时前
【数据集】分地市旅游收入数据集(2000-2024年)
大数据·旅游
回家路上绕了弯7 小时前
定期归档历史数据实战指南:从方案设计到落地优化
分布式·后端
大厂技术总监下海8 小时前
用户行为分析怎么做?ClickHouse + 嵌套数据结构,轻松处理复杂事件
大数据·数据结构·数据库
大厂技术总监下海8 小时前
大数据生态的“主动脉”:RocketMQ 如何无缝桥接 Flink、Spark 与业务系统?
大数据·开源·rocketmq