Spark SQL - 操作数据帧

本教程将通过一个具体的案例来演示如何在Spark SQL中操作数据帧。我们将从获取学生数据帧开始,包括两种方法:一是由数据集转换而来,二是直接读取文件生成数据帧。然后,我们将对数据帧进行各种操作,如投影、过滤、统计和排序等。

具体步骤如下:

  1. 由数据集转换而来的方法

    • 前提是添加了元数据的数据集。
    • 调用数据集的toDF()方法得到数据帧。
    • 查看数据帧的结构和内容。
  2. 直接读取文件生成数据帧的方法

    • 利用spark.read成员的option().csv()方法读取文本文件生成数据帧。
    • 查看学生数据帧的内容。
    • 因为学生文件第一行不是表头,所以生成的数据帧字段名是系统自动生成的。
    • 修改学生数据帧默认字段名。
    • 查看学生数据帧的内容和结构。
    • 修改数据帧字段类型。
    • 数据帧改名。
  3. 操作学生数据帧

    • 显示数据帧内容和模式。
    • 对学生数据帧进行投影操作,如显示姓名与年龄字段。
    • 对学生数据帧进行过滤操作,如查询全部女生记录和20岁以上女生记录。
    • 对学生数据帧进行统计操作,如统计总记录数、分组统计男女生总年龄、平均年龄、最大年龄和最小年龄等。
    • 对学生数据帧进行排序操作,如按年龄升序排列、按年龄降序排列、先按性别升序排列再按年龄降序排列等。
相关推荐
乙真仙人1 小时前
数据,正在成为AI大模型最后的护城河
大数据·人工智能·数字化
喻师傅1 小时前
数据治理:DQC(Data Quality Center,数据质量中心)概述
大数据·数据仓库·数据治理
武子康2 小时前
大数据-59 Kafka 拦截器全解析:原理、拦截链机制与自定义实现实战
大数据·后端·kafka
weixin_lynhgworld2 小时前
剧本杀小程序系统开发:构建数字化剧本杀生态圈
大数据·小程序·剧本杀
金宗汉2 小时前
文明存续的时间博弈:论地球资源枯竭临界期的技术突围与行动紧迫性
大数据·人工智能·笔记·算法·观察者模式
数据智研3 小时前
【数据分享】各省粮食外贸依存度、粮食波动率等粮食相关数据合集(2011-2022)(获取方式看文末)
大数据·人工智能
hmb↑8 小时前
Apache Doris数据库——大数据技术
大数据
SickeyLee11 小时前
产品经理的成长路径与目标总结
大数据·人工智能
苹果企业签名分发12 小时前
腾讯云市场排名
大数据
沫儿笙12 小时前
OTC焊接机器人节能技巧
大数据·人工智能·机器人