词频统计

5.2 初识Spark Streaming在本节实战中，我们初步探索了Spark Streaming，它是Spark的流式数据处理子框架，具备高吞吐量、可伸缩性和强容错能力。我们了解了Spark Streaming的基本概念和运行原理，并通过两个案例演示了如何利用Spark Streaming实现词频统计。第一个案例是监听TCP Socket端口的数据，实时计算接收到的文本数据中的单词数。第二个案例是监听HDFS上的目录，一旦有新文件加入到指定目录下，Spark Streaming计算出该时间内的单词统计数。通过这些实战操作，我们掌握了Spark

4.8.1 利用Spark SQL实现词频统计在利用Spark SQL实现词频统计的实战中，首先需要准备单词文件并上传至HDFS。接着，可以通过交互式方法或创建Spark项目来实现词频统计。交互式方法包括读取文本文件生成数据集，扁平化映射得到新数据集，然后将数据集转成数据帧，基于数据帧生成临时视图，最后进行词频统计并将结果保存到HDFS。而通过Spark项目实现时，需要创建Maven项目并添加相关依赖，配置日志属性文件和HDFS配置文件，创建词频统计对象，并运行程序查看结果。这些步骤涵盖了从环境准备到程序开发和结果验证的全过程，是学习Spark SQ

3.8.1 利用RDD实现词频统计在本次实战中，我们通过Spark的RDD实现了词频统计功能。首先，准备了包含单词的文件并上传至HDFS。接着，采用交互式方式逐步完成词频统计，包括创建RDD、单词拆分、映射为二元组、按键归约以及排序等操作。此外，还通过创建Maven项目，配置依赖、添加Scala SDK、创建日志属性文件和HDFS配置文件，最终编写并运行Scala程序，实现了词频统计并将结果输出到HDFS。整个过程涵盖了从数据准备到程序开发和结果验证的完整流程，加深了对Spark RDD操作和分布式文件处理的理解。

6.1 初探MapReduceMapReduce是一种分布式计算框架，用于处理大规模数据集。其核心思想是“分而治之”，通过Map阶段将任务分解为多个简单任务并行处理，然后在Reduce阶段汇总结果。MapReduce编程模型包括Map和Reduce两个阶段，数据来源和结果存储通常在HDFS中。MapReduce编程实例中，以词频统计为例，通过Map阶段处理输入数据生成中间结果，Reduce阶段合并这些结果得到最终统计。实现步骤包括准备数据文件、创建Maven项目、添加依赖、创建日志属性文件、编写Mapper和Reducer类，以及运行

脑子不好真君

hadoop-mapreduce词频统计输入数据是一段文本，如下：输入数据被切分为更小的部分，每个部分对应一行文本。作用：将输入数据分配给不同的 Mapper 任务，实现并行处理。

任务3.8.1 利用RDD实现词频统计选择实现方式Spark版本与Scala版本匹配JDK版本选择启动服务文件准备分步实现一步实现创建Maven项目

任务4.8.1 利用Spark SQL实现词频统计本地文件准备HDFS文件准备方法一方法二创建Maven项目添加依赖设置源程序文件夹添加Scala SDK

Spark基础学习--基础介绍Spark是可以处理大规模数据的统一分布式计算引擎。在之前我们学习过MapReduce，同样作为大数据分布式计算引擎，究竟这两者有什么区别呢？首先我们回顾一下MapReduce的架构：MR基于HDFS实现大数据存储，基于Yarn做资源调度，且MR是基于进程处理数据的

MR实战：词频统计本实战演练旨在利用Hadoop MapReduce框架在虚拟环境中执行一个简单的词频统计任务。首先，在master节点上创建了一个包含多个单词行的文本文件words.txt，并将该文件上传至HDFS中的指定目录/wordcount/input。