Spark SQL - 操作数据集

本教程将通过一个具体的案例来演示如何在Spark SQL中操作数据集。我们将从创建本地文件开始,然后上传到HDFS,并使用Spark Shell启动Spark程序。接下来,我们将加载数据为DataSet,并给DataSet添加元数据信息。最后,我们将对数据集进行各种操作,如投影、过滤、统计和排序等。

具体步骤如下:

  1. /home目录里创建student.txt文件。
  2. 执行命令:hdfs dfs -mkdir -p /student/input,创建目录。
  3. 执行命令:hdfs dfs -put student.txt /student/input,上传文件。
  4. 执行命令:spark-shell --master spark://master:7077,启动Spark Shell。
  5. 执行命令:val ds = spark.read.textFile("hdfs://master:9000/student/input/student.txt"),读取文件得到数据集。
  6. 执行命令:ds.show,显示数据集内容。
  7. 执行命令:ds.printSchema,显示数据集模式。
  8. 定义学生样例类:case class Student(id: Int, name: String, gender: String, age: Int)。
  9. 导入隐式转换:import spark.implicits._。
  10. 将数据集转成学生数据集:val studentDS = ds.map(line => { val fields = line.split(","); val id = fields(0).toInt; val name = fields(1); val gender = fields(2); val age = fields(3).toInt; Student(id, name, gender, age) })。
  11. 对学生数据集进行操作,如投影、过滤、统计和排序等。
相关推荐
云器科技10 小时前
告别Spark?大数据架构的十字路口与技术抉择
大数据·架构·spark·lakehouse·数据湖仓
DeepVis Research15 小时前
【Storage/Signal】2026年度非线性存储一致性与跨时域信号处理基准索引 (Benchmark Index)
算法·网络安全·数据集·分布式系统
Hello.Reader15 小时前
Flink Table/SQL 自定义 Connector从 DDL 元数据到运行时 Source/Sink(含 Socket 全栈例子拆解)
大数据·sql·flink
DeepVis Research17 小时前
【InfoSec/Sanitization】2026年度非注册实体管控与内存安全擦除基准索引 (Benchmark Index)
网络安全·数据集·数据安全·虚拟化·系统运维
爱可生开源社区18 小时前
SCALE | 2025 年 12 月《大模型 SQL 能力排行榜》发布
数据库·sql·aigc
羊小猪~~18 小时前
数据库学习笔记(十九)--C/C++调用MYSQL接口
数据库·笔记·后端·sql·学习·mysql·考研
DeepVis Research19 小时前
基于Kelvin基准集的分布式分支策略与零信任架构演进分析 (DevSecOps Case Study)
运维·网络安全·系统架构·数据集·边缘计算
宇宙的尽头是PYTHON20 小时前
最简单的sql求最大值
数据库·sql
云贝教育-郑老师21 小时前
技术深耕·生态共联——OpenTenBase 2025六城城市行全景回顾
sql·腾讯云
lkbhua莱克瓦2421 小时前
进阶-索引4-使用规则
开发语言·数据库·笔记·sql·mysql·使用规则