Hadoop+Spark大数据技术（微课版）曾国荪、曹洁版第七章 Spark RDD编程实验

Apache Spark中，`sc` 和 `reduce` 分别代表 SparkContext 和 reduce 函数。

SparkContext (`sc`)：是 Spark 的主要入口点，它代表与 Spark 集群的连接。
在 Spark 应用程序中，需要首先创建一个 SparkContext 对象，负责与集群通信并管理资源。通过 SparkContext，可以创建 RDDs（Resilient Distributed Datasets）、Broadcast Variables、Accumulators 等。
Reduce 函数：在分布式计算中，reduce 函数是一个用于聚合数据的操作。
在 Spark 中，reduce 函数通常用于对 RDD（Resilient Distributed Dataset）中的元素执行聚合操作。
接受一个函数作为参数，函数定义了如何将两个元素聚合成一个新元素。
reduce 函数会在集群中的多个节点上并行执行，并在最后将结果聚合起来。
常见的用例包括对数字进行求和、查找最大值或最小值等。

使用文本文件创建RDD

注意：需要先在hadoop分布式文件系统中创建文件

1.先在本地文件系统创建data.txt文件

cd /usr/local/hadoop/input

gedit data.txt

2.启动hadoop分布式文件系统

./sbin/start-dfs.sh

3.上传本地文件data.txt到hadoop分布式文件系统

hdfs dfs -put /usr/local/hadoop/input/data.txt input

查看分布式文件系统中是否存在data.txt

hdfs dfs -ls input

textFile 函数用于读取文本文件中的内容，并将其转换为RDD。

rdd.map(line => line.length)：这一行代码将每一行文本映射为其长度，即字符数。

.map()函数对RDD中的每个元素应用给定的函数，并返回结果组成的新RDD。

.reduce(_ + _)：这一行代码对RDD中的所有元素进行累加，得到它们的总和。.reduce()函数将RDD中的元素两两合并，直到只剩下一个元素，这里使用的匿名函数 _ + _ 表示将两个元素相加。

val wordCount = rdd.map(line => line.length).reduce(_ + _)：这行代码将文本文件中所有行的字符数求和，并将结果保存在wordCount变量中。

wordCount：最后，wordCount 变量中保存着文本文件中所有行的字符总数。

Scala 复制代码

val rdd = sc.textFile("/user/hadoop/input/data.txt")
rdd: org.apache.spark.rdd.RDD[String] = /user/hadoop/input/data.txt MapPartitionsRDD[31] at textFile at <console>:25

val wordCount = rdd.map(line => line.length).reduce(_ + _)
wordCount

wordCount: Int = 274
res11: Int = 274

一些JSON数据

{

"name": "中国",

"province": [

{

"name": "河南",

"cities": [

{

"city": ["郑州","洛阳"]

]

}

]

}

```

{

"code": 0,

"msg": "",

"count": 2,

"data": [

{

"id": 101,

"username": "zhangsan",

"city": "xiamen"

{

"id": 102,

"username": "liming",

"city": "zhengzhou"

}

]

}

{"学号":"106","姓名":"李明","数据结构":"92"}

{"学号":"242","姓名":"李乐","数据结构":"93"}

{"学号":"107","姓名":"冯涛","数据结构":"99"}

完整程序练习

seq是一个包含元组的列表，每个元组都有一个字符串键和一个字符串列表值。

sc.parallelize方法将seq转换为一个RDD。

rddP.partitions.size是用来获取RDD的分区数量的。RDD的分区是数据的逻辑划分，决定了数据在集群中的分布方式。每个分区都可以在集群的不同节点上进行并行处理。