Spark实战：词频统计

howard20052024-04-06 18:24

文章目录

一、Spark实战：词频统计
二、实战总结

一、Spark实战：词频统计

（一）Scala版

1、分步完成词频统计

（1）基于文本文件创建RDD

执行命令：val lines = sc.textFile("/home/test.txt")

（2）按空格拆分作扁平化映射

执行命令：val words = lines.flatMap(_.split(" "))

（3）将单词数组映射成二元组数组

执行命令：val tuplewords = words.map((_, 1))

（4）将二元组数组按键归约

执行命令：val wordcount = tuplewords.reduceByKey(_ + _)

（5）将词频统计结果按次数降序排列

执行命令：val sortwordcount = wordcount.sortBy(_._2, false)

2、一步搞定词频统计

执行命令：sc.textFile("/home/test.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).sortBy(_._2, false).collect.foreach(println)

（二）Python版

1、分步完成词频统计

（1）基于文本文件创建RDD

执行命令：lines = sc.textFile("/home/test.txt")

（2）按空格拆分作扁平化映射

执行命令：words = lines.flatMap(lambda line : line.split(' '))

（3）将单词数组映射成二元组数组

执行命令：tuplewords = words.map(lambda word : (word, 1))

（4）将二元组数组按键归约

执行命令：wordcount = tuplewords.reduceByKey(lambda a, b : a + b)

（5）将词频统计结果按次数降序排列

执行命令：sortwordcount = wordcount.sortBy(lambda wc : wc[1], False)

2、一步搞定词频统计

执行命令

python 复制代码

for line in sc.textFile('/home/test.txt').flatMap(lambda line : line.split(' ')).map(lambda word : (word, 1)).reduceByKey(lambda a, b : a + b).sortBy(lambda tup : tup[1], False).collect():
    print(line)

二、实战总结

在Spark实战中，我们通过Scala和Python两个版本分别实现了词频统计的功能。首先，我们从文本文件中创建了RDD，然后按空格拆分进行扁平化映射，接着将单词数组映射成二元组数组，之后对二元组数组进行按键归约，最后将词频统计结果按次数降序排列。在分步实现的基础上，我们还可以通过一步命令直接完成整个流程。通过这次实战，我们对Spark的基本操作有了更深入的了解，为后续的学习和实践打下了基础。

上一篇：RabbitMQ基于Java实现消息应答

下一篇：算法练习----力扣每日一题------4

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03UV安装并设置国内源 04综合整理：pdf预览显示：你尝试预览的文件可能对你的计算机有害。如果你信任此文件以及其来源，请打开此文件以看其内容，如何解决以正常预览文件 05Linux下V2Ray安装配置指南 06《大数据技术原理与应用》实验报告三熟悉HBase常用操作 07jdk21下载、安装（Windows、Linux、macOS）08安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）09PyCharm 社区版全平台安装指南 10npm使用国内淘宝镜像的方法