【无标题】如何在sheel中运行Spark

嗯.～2025-05-12 2:38

启动hdfs集群，打开hadoop100:9870，在wcinput目录下上传一个包含很多个单词的文本文件。

启动之后在spark-shell中写代码。

// 读取文件，得到RDD

val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/words.txt")

// 将单词进行切割，得到一个存储全部单词的RDD

val rdd2= fileRDD.flatMap(line => line.split(" "))

// 将单词转换为元组对象，key是单词，value是数字1

val rdd3= wordsRDD.map(word => (word, 1))

// 将元组的value按照key来分组，对所有的value执行聚合操作(相加)

val rdd4= wordsWithOneRDD.reduceByKey((a, b) => a + b)

// 收集RDD的数据并打印输出结果

上一篇：MySQL索引使用规则详解：从设计到优化的完整指南

下一篇：vim的配置

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04AI科技热点日报 | 2026年07月01日 05国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 08微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？10【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……