如何在sheel中运行spark

// 读取文件,得到RDD

val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/words.txt")

// 将单词进行切割,得到一个存储全部单词的RDD

val rdd2= fileRDD.flatMap(line => line.split(" "))

// 将单词转换为元组对象,key是单词,value是数字1

val rdd3= wordsRDD.map(word => (word, 1))

// 将元组的value按照key来分组,对所有的value执行聚合操作(相加)

val rdd4= wordsWithOneRDD.reduceByKey((a, b) => a + b)

// 收集RDD的数据并打印输出结果

// 读取文件,得到RDD

val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/words.txt")

// 将单词进行切割,得到一个存储全部单词的RDD

val rdd2= fileRDD.flatMap(line => line.split(" "))

// 将单词转换为元组对象,key是单词,value是数字1

val rdd3= wordsRDD.map(word => (word, 1))

// 将元组的value按照key来分组,对所有的value执行聚合操作(相加)

val rdd4= wordsWithOneRDD.reduceByKey((a, b) => a + b)

// 收集RDD的数据并打印输出结果

相关推荐
isfox4 小时前
Hadoop 1.x 与 2.x 版本对比:架构演进与核心差异解析
大数据
货拉拉技术5 小时前
货拉拉离线大数据跨云迁移-综述篇
大数据·云原生
Lx3527 小时前
Hadoop与实时计算集成:Lambda架构实践经验
大数据·hadoop
武子康10 小时前
大数据-101 Spark Streaming 有状态转换详解:窗口操作与状态跟踪实战 附多案例代码
大数据·后端·spark
expect7g10 小时前
COW、MOR、MOW
大数据·数据库·后端
武子康1 天前
大数据-98 Spark 从 DStream 到 Structured Streaming:Spark 实时计算的演进
大数据·后端·spark
阿里云大数据AI技术1 天前
2025云栖大会·大数据AI参会攻略请查收!
大数据·人工智能
代码匠心1 天前
从零开始学Flink:数据源
java·大数据·后端·flink
Java水解1 天前
Scala深入面向对象:类、对象与伴生关系
后端·scala
Lx3521 天前
复杂MapReduce作业设计:多阶段处理的最佳实践
大数据·hadoop