PySpark实战 - 2.2 利用Spark SQL计算总分与平均分

文章目录

  • [1. 实战概述](#1. 实战概述)
  • [2. 实战步骤](#2. 实战步骤)
  • [3. 实战总结](#3. 实战总结)

1. 实战概述

  • 本次实战基于 Spark SQL 对 HDFS 上的学生成绩文本文件进行分析,通过 split 函数拆分姓名与各科成绩,利用嵌套查询和聚合计算,实现每位学生的总分与保留一位小数的平均分统计,展示了 Spark SQL 在结构化数据处理中的强大表达能力与简洁性。

2. 实战步骤

3. 实战总结

  • 本次实战通过交互式与程序式两种方式,成功完成了学生成绩的总分与平均分统计任务。利用 spark.read.text() 读取原始成绩数据后,创建临时视图并编写嵌套 SQL 查询:内层使用 splitcast 提取姓名及五门课程分数,外层计算总和并调用 round(..., 1) 精确控制平均分小数位数。整个过程充分发挥了 Spark SQL 兼容标准 SQL 语法的优势,代码清晰、逻辑直观。程序采用 SparkSession.builder 正确初始化上下文,并在 finally 块中确保资源释放。该案例不仅验证了 Spark SQL 处理半结构化文本的能力,也为后续复杂数据分析任务提供了可复用的模板,体现了大数据处理中"以 SQL 为中心"的高效开发范式。
相关推荐
howard200518 天前
PySpark实战 - 2.5 利用Spark SQL统计网站每月访问量
pyspark sql·网站访问量
howard200521 天前
PySpark实战 - 2.4 利用Spark SQL实现分组排行榜
topn·分组排行榜·pyspark sql
howard200521 天前
PySpark实战 - 2.3 利用SparkSQL统计每日新增用户
pyspark sql·每日新增用户
howard200521 天前
PySpark实战 - 2.1 利用Spark SQL实现词频统计
词频统计·pyspark sql
howard200522 天前
PySpark实战 - 1.2 利用RDD计算总分与平均分
成绩统计·pyspark rdd
洛克大航海2 个月前
解锁 PySpark SQL 的强大功能:有关 App Store 数据的端到端教程
linux·数据库·sql·pyspark sql
howard20057 个月前
4.8.2 利用Spark SQL计算总分与平均分
spark sql·成绩统计