Spark SQL - 操作数据集

本教程将通过一个具体的案例来演示如何在Spark SQL中操作数据集。我们将从创建本地文件开始,然后上传到HDFS,并使用Spark Shell启动Spark程序。接下来,我们将加载数据为DataSet,并给DataSet添加元数据信息。最后,我们将对数据集进行各种操作,如投影、过滤、统计和排序等。

具体步骤如下:

  1. /home目录里创建student.txt文件。
  2. 执行命令:hdfs dfs -mkdir -p /student/input,创建目录。
  3. 执行命令:hdfs dfs -put student.txt /student/input,上传文件。
  4. 执行命令:spark-shell --master spark://master:7077,启动Spark Shell。
  5. 执行命令:val ds = spark.read.textFile("hdfs://master:9000/student/input/student.txt"),读取文件得到数据集。
  6. 执行命令:ds.show,显示数据集内容。
  7. 执行命令:ds.printSchema,显示数据集模式。
  8. 定义学生样例类:case class Student(id: Int, name: String, gender: String, age: Int)。
  9. 导入隐式转换:import spark.implicits._。
  10. 将数据集转成学生数据集:val studentDS = ds.map(line => { val fields = line.split(","); val id = fields(0).toInt; val name = fields(1); val gender = fields(2); val age = fields(3).toInt; Student(id, name, gender, age) })。
  11. 对学生数据集进行操作,如投影、过滤、统计和排序等。
相关推荐
IT 小阿姨(数据库)2 小时前
PostgreSQL REST API 介绍
运维·数据库·sql·postgresql·centos
豆沙沙包?5 小时前
2025年--Lc182--sql(排序和分组)--Java版
java·数据库·sql
孟意昶7 小时前
Doris专题17- 数据导入-文件格式
大数据·数据库·分布式·sql·doris
Thepatterraining7 小时前
MySQL零基础教程:DDL/DCL/DML详解,从建库到存储过程一篇搞定!
数据库·sql·mysql
芥子沫9 小时前
经典机器学习&深度学习领域数据集介绍
人工智能·深度学习·机器学习·数据集
fanstuck10 小时前
开源项目重构我们应该怎么做-以 SQL 血缘系统开源项目为例
数据库·sql·重构·数据挖掘·数据治理
心止水j12 小时前
spark
javascript·数据库·spark
hello 早上好19 小时前
深入 Spring 依赖注入底层原理
数据库·sql·spring
寰宇视讯1 天前
英孚教育Write Spark青少儿创新写作征集活动正式启动
大数据·分布式·spark
weixin_456904271 天前
# Pandas 与 Spark 数据操作完整教程
大数据·spark·pandas