如何在sheel中运行Spark

启动hdfs集群,打开hadoop100:9870,在wcinput目录下上传一个包含很多个单词的文本文件。

启动之后在spark-shell中写代码。


// 读取文件,得到RDD

val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/words.txt")

// 将单词进行切割,得到一个存储全部单词的RDD

val rdd2= fileRDD.flatMap(line => line.split(" "))

// 将单词转换为元组对象,key是单词,value是数字1

val rdd3= wordsRDD.map(word => (word, 1))

// 将元组的value按照key来分组,对所有的value执行聚合操作(相加)

val rdd4= wordsWithOneRDD.reduceByKey((a, b) => a + b)

// 收集RDD的数据并打印输出结果

rdd4.collect().foreach(println)

相关推荐
Kurisu5755 分钟前
深度拆解:从 CAP 定理到 Raft 协议的分布式一致性演进
分布式
计算机安禾18 分钟前
【算法分析与设计】第21篇:回溯法的状态空间树与剪枝函数设计
大数据·人工智能·算法·机器学习·数据挖掘·剪枝
captain_AIouo27 分钟前
攻克行业技术痛点,GPT Image2重塑电商AI生图标准
大数据·人工智能·经验分享·gpt·aigc
garmin Chen32 分钟前
Elasticsearch(2):JavaRestClient操作Elasticsearch全流程实战指南
java·大数据·elasticsearch·搜索引擎
兴通物联科技43 分钟前
条码防重防错防漏防呆:工业数据采集的全链路风控技术方案
大数据·物联网·计算机视觉·计算机外设·硬件架构
kuokay1 小时前
深入理解 LLM 分布式训练全栈:从硬件到 LLaMA-Factory
分布式·llama·deepspeed·fsdp·llama-factory·accelerate
czzxxxxxx1 小时前
知识IP卡在变现第一步:创客匠人用一套陪跑系统回答“谁来陪你落地”
大数据·人工智能
Java 码思客1 小时前
【Redis分布式缓存实战】第2章 Redis核心数据结构与业务实战场景
redis·分布式·缓存
Rick19932 小时前
Redis 分布式锁 + 部署模式
redis·分布式
NiceCloud喜云9 小时前
Opus 4.8 的 Effort Control 怎么选:Low 到 Max 五档策略
android·java·大数据·前端·c++·python·spring