Hadoop+Spark大数据技术 第七次作业

第七次作业

复制代码
## 1. 简述Spark SQL使用的数据抽象DataFrame与Dataset的区别。

* DataFrame: 基于 Row 对象的二维表格结构,类似于关系型数据库中的表。 行和列都有明确的 Schema(模式),可以进行类型推断。 提供了丰富的操作接口,如 select、filter、group by、agg 等。 缺点: 需要在操作时进行类型转换,例如使用 col("age").cast("int") 将类型转换为 Int。

* Dataset: 基于特定类型的数据结构,例如 Dataset\[Student\],其中 Student 是一个 case class。 相比 DataFrame,Dataset 能更方便地进行类型推断,无需显式转换。 优点: 代码更简洁,类型安全,编译器可以进行类型检查。 总结: 当需要进行类型安全的操作时,Dataset 是更好的选择。当数据结构复杂,需要进行类型转换时,DataFrame 更灵活。
复制代码
## 2. 简述创建DataFrame对象的常用方法

* 1. Parquet文件创建:使用\`SparkSession\`的\`read.parquet()\`方法从Parquet文件中创建DataFrame。

* 2. json文件创建DataFrame对象:通过\`SparkSession\`的\`read.json()\`方法,可以从JSON文件中读取数据并创建DataFrame。

* 3. RDD创建DataFrame对象:如果有一个RDD,使用\`SparkSession\`的\`createDataFrame()\`方法将其转换为DataFrame。

* 4. SparkSession创建:\`SparkSession\`是Spark 2.0引入的入口点,可以直接用来创建DataFrame。如

* 5. Seq创建DataFrame对象: \`SparkSession\`的\`createDataFrame()\`方法也可以接受一个包含元组的Scala \`Seq\`。
复制代码
## 3. 简述DataFrame对象的常用操作

* 见实验8
复制代码
## 4. 阅读、分析下列各程序段中各语句的功能,并给出运行结果。
python 复制代码
(1) 设grade.json文件的内容如下,给出分析
{"ID":"106","Name":"Ding","Class":"1","Scala":92,"Spark":91}
{"ID":"242","Name":"Yan","Class":"2","Scala":96,"Spark":90}
{"ID":"107","Name":"Feng","Class":"1","Scala":84,"Spark":91}
{"ID":"230","Name":"Wang","Class":"2","Scala":87,"Spark":91}
{"ID":"153","Name":"Zhang","Class":"1","Scala":62,"Spark":71}
{"ID":"242","Name":"Xu","Class":"2","Scala":88,"Spark":90}
{"ID":"235","Name":"Wu","Class":"1","Scala":83,"Spark":91}
{"ID":"224","Name":"Xia","Class":"2","Scala":89,"Spark":91}

val gradeDF=spark.read.json("grade.json")
gradeDF.count()
gradeDF.groupBy("Class").count().show()

(2) 设grade.txt文件的内容如下,给出分析
106,Ding,92,95,91
242,Yan,96,93,90
107,Feng,84,92,91
230,Wang,87,86,91
153,Zhang,85,90,92
224,Men,83,86,90
236,Wang1,87,85,89
210,Han,73,93,88
101,An,84,93,88
127,Pen,81,93,91
237,Du,83,81,85

    val lineRDD = sc.textFile("grade.txt").map{line => line.split(",")}
    val studentRDD = lineRDD.map(x => (x(0).toInt,x(1).toString,x(2).toInt,x(3).toInt,x(4).toInt))
    val studentDF = studentRDD.toDF("ID","Name","Scala","Spark","Python")
    studentDF.show()

(3) 设grade.txt文件的内容与(2)相同,给出分析
case class Student(ID:Int,Name:String,Scala:Int,Spark:Int,Python:Int)
val stuDS = spark.read.textFile("grade.txt")
val studentDataset = stuDS.map(line => {val x = line.split(",");
val ID = x(0).toInt;
val Name = x(1);
val Java = x(2).toInt;
val Scala = x(3).toInt;
val Python = x(4).toInt;
Student(ID,Name,Java,Scala,Python)})
studentDataset.sort(studentDataset("ID").desc).show()

(1)这段代码分析及运行结果:

  • `spark.read.json("grade.json")`:从给定的grade.json文件中读取数据,创建一个DataFrame `gradeDF`。

  • `gradeDF.count()`:返回DataFrame的行数,这里有8行数据。

  • `gradeDF.groupBy("Class").count().show()`:按照"Class"字段对数据进行分组,并计算每组的行数,然后显示结果。

```

+-----+-----+

|Class|count|

+-----+-----+

| 1 | 4 |

| 2 | 4 |

+-----+-----+

```

  • 输出显示有两个班级,每个班级各有4个学生。

(2)这段代码分析及运行结果:

  • `sc.textFile("grade.txt").map{line => line.split(",")}`:读取grade.txt文件,将每一行分割成数组,并创建一个新的RDD `lineRDD`。

  • `lineRDD.map(x => (x(0).toInt,x(1).toString,x(2).toInt,x(3).toInt,x(4).toInt))`:将RDD `lineRDD`中的每个元素(数组)转换为元组,然后创建一个新的RDD `studentRDD`。

  • `studentRDD.toDF("ID","Name","Scala","Spark","Python")`:将`studentRDD`转换为DataFrame `studentDF`,并指定列名。

  • `studentDF.show()`:显示DataFrame `studentDF`的内容。

```

+---+----+-----+-----+-----+

| ID|Name|Scala|Spark|Python|

+---+----+-----+-----+-----+

|106| Ding| 92| 95| 91|

|242| Yan | 96| 93| 90|

|107| Feng| 84| 92| 91|

|230| Wang| 87| 86| 91|

|153|Zhang| 85| 90| 92|

|224| Men | 83| 86| 90|

|236|Wang1| 87| 85| 89|

|210| Han | 73| 93| 88|

|101| An | 84| 93| 88|

|127| Pen | 81| 93| 91|

|237| Du | 83| 81| 85|

+---+----+-----+-----+-----+

```

  • 输出展示了10个学生的信息,包括ID、Name、Scala、Spark和Python的分数。

(3)这段代码分析及运行结果:

  • `case class Student(ID:Int,Name:String,Scala:Int,Spark:Int,Python:Int)`:定义了一个名为`Student`的case class,包含5个字段。

  • `spark.read.textFile("grade.txt")`:读取grade.txt文件,创建RDD `stuDS`。

  • `stuDS.map...`:将RDD `stuDS`中的每一行数据转换为`Student`对象,然后创建一个新的Dataset `studentDataset`。

  • `studentDataset.sort(studentDataset("ID").desc).show()`:按ID字段降序排序`studentDataset`,然后显示结果。

```

+---+----+-----+-----+-----+

| ID|Name|Java |Scala|Python|

+---+----+-----+-----+-----+

|237| Du| 83| 81| 85|

|236|Wang1| 87| 85| 89|

|230| Wang| 87| 86| 91|

|224| Men | 83| 86| 90|

|210| Han | 73| 93| 88|

|127| Pen | 81| 93| 91|

|107| Feng| 84| 92| 91|

|106| Ding| 92| 95| 91

相关推荐
电商软件开发小辛15 分钟前
解析电商本地生活竞争:从我店模式创新到生态协同的进化路径
大数据
2501_924878593 小时前
强光干扰下漏检率↓78%!陌讯动态决策算法在智慧交通违停检测的实战优化
大数据·深度学习·算法·目标检测·视觉检测
做科研的周师兄4 小时前
【机器学习入门】1.2 初识机器学习:从数据到智能的认知之旅
大数据·数据库·人工智能·python·机器学习·数据分析·机器人
小白不想白a5 小时前
【Hadoop】HDFS 分布式存储系统
hadoop·分布式·hdfs
IT毕设梦工厂5 小时前
大数据毕业设计选题推荐-基于大数据的丙型肝炎患者数据可视化分析系统-Hadoop-Spark-数据可视化-BigData
大数据·hadoop·spark·毕业设计·源码·bigdata
阿里云大数据AI技术5 小时前
【跨国数仓迁移最佳实践7】基于MaxCompute多租的大数据平台架构
大数据
阿里云大数据AI技术5 小时前
ODPS 十五周年实录 | Data + AI,MaxCompute 下一个15年的新增长引擎
大数据·python·sql
SelectDB6 小时前
2-5 倍性能提升,30% 成本降低,阿里云 SelectDB 存算分离架构助力波司登集团实现降本增效
大数据·数据库·数据分析
随心............6 小时前
Spark面试题
大数据·分布式·spark
君不见,青丝成雪7 小时前
Flink的CheckPoint与SavePoint
大数据·flink