spark rdd

3.8.5 利用RDD统计网站每月访问量本次实战通过 Spark RDD API 实现网站访问日志的月度流量统计。原始数据 websiteData.csv 包含逗号分隔的访问记录，其中第五列存储 yyyy-M-d H:m 格式的时间戳。核心处理流程包括：首先读取 CSV 文件生成 RDD，通过 split(",")(4) 提取时间字段，再经 split(" ")(0) 和 split("-") 两次分割获取年月日，最终拼接为 yyyy-M 格式的月份键。将每条记录映射为 (月份, 1) 键值对后，使用 reduceByKey(_ + _) 对相

3.8.3 利用RDD统计每日新增用户本次实战旨在使用Apache Spark的弹性分布式数据集（RDD）来解决一个典型的用户增长分析问题：根据用户访问日志，精确统计出每日新增的独立用户数量。核心思想是“倒排索引”与“去重取最小值”。

3.8.4 利用RDD实现分组排行榜本次实战通过 Spark RDD API 实现了一个典型的分组 Top N 业务场景：计算每位学生的最高分前三名。首先，将原始学生成绩文本（如“张三丰 90”）读取为 RDD，并映射成 (姓名, 分数) 二元组；接着利用 groupByKey() 按姓名分组，将同一学生的多条记录聚合为 (姓名, [分数列表])；随后在每组内对分数降序排列并截取前三，最终以“姓名: 分数1 分数2 分数3”的格式输出。整个流程涵盖了 Spark 核心操作：textFile, map, groupByKey, sortWi

3.4 理解RDD依赖本次实战通过代码验证了 RDD 的窄依赖与宽依赖特性。窄依赖以 map 算子为例，Spark UI 显示仅有一个 Stage，无 Shuffle 读写，且操作前后分区数（2）和元素数（5）保持不变，体现了一对一的高效流水线计算。宽依赖以 reduceByKey 为例，UI 显示作业被切分为两个 Stage，存在 Shuffle 读写数据，验证了“一对多”的重分布过程；操作后分区数虽保持为 2，但元素数由 5 减至 3，体现了聚合功能。

2.4.1 词频统计准备工作词频统计可通过MapReduce、Hive SQL、Spark RDD和Spark SQL等多种方式实现。在Spark开发中，版本选择至关重要，需注意Spark内核与Scala版本的兼容性，如Spark 3.1.3配合Scala 2.12和JDK 8可确保本地运行和集群部署的一致性。实战准备包括启动HDFS和Spark集群服务，以及准备测试数据文件(words.txt)并上传至HDFS分布式存储中，为后续的词频统计分析奠定基础。

Spark实战：使用spark-submit提交并执行JAR包执行命令：vim RDDWebsiteVisits.scala

PySpark实战 - 1.1 利用RDD实现词频统计

3.8.2 利用RDD计算总分与平均分在本次实战中，我们利用Spark的RDD完成了成绩文件的总分与平均分计算任务。首先，准备了包含学生成绩的文件并上传至HDFS。接着，通过交互式方式逐步实现了成绩的读取、解析、总分计算与平均分计算，并最终输出结果。此外，还通过创建Maven项目，配置了项目依赖、添加了Scala SDK、创建了日志属性文件和HDFS配置文件，并编写了Scala程序。程序运行后，成功将成绩统计结果输出到HDFS，并通过修改代码调整了结果的输出格式。整个过程涵盖了数据处理、程序开发和结果验证的完整流程，进一步加深了对Spark

3.2.3 掌握RDD转换算子 - 5. 合并算子 - union()在本节课中，我们学习了Spark RDD的union()算子，它能够将两个数据类型一致的RDD合并为一个新的RDD，主要用于整合不同数据源。通过案例演示，我们成功将两个简单的数字RDD合并，直观地看到合并结果是按原顺序纵向拼接，不会自动去重。在课堂练习中，进一步将两个二元组形式的成绩表RDD合并，展示了union()在处理实际数据时的应用，合并后的RDD完整地包含了两个原始RDD的所有元素。通过这些实践，我们掌握了union()算子的使用方法和特点，能够灵活地将不同来源的数据进行整合，为后续的数据分析和处

夜夜流光相皎洁_小宁

Spark 分布式弹性计算集（RDD）相关概念介绍目录一、概述二、RDD的核心概念2.1 Partition2.2 Partitioner2.3 RDD的依赖关系

任务3.8.4 利用RDD实现分组排行榜在大数据环境下，经常需要对数据进行分组和排序操作。本实战任务旨在利用Apache Spark的RDD（弹性分布式数据集）来实现对学生成绩数据的分组，并求出每个学生分数最高的前3个成绩。

任务3.8.1 利用RDD实现词频统计选择实现方式Spark版本与Scala版本匹配JDK版本选择启动服务文件准备分步实现一步实现创建Maven项目

我是有底线的