Spark SQL - 操作数据集

本教程将通过一个具体的案例来演示如何在Spark SQL中操作数据集。我们将从创建本地文件开始,然后上传到HDFS,并使用Spark Shell启动Spark程序。接下来,我们将加载数据为DataSet,并给DataSet添加元数据信息。最后,我们将对数据集进行各种操作,如投影、过滤、统计和排序等。

具体步骤如下:

  1. /home目录里创建student.txt文件。
  2. 执行命令:hdfs dfs -mkdir -p /student/input,创建目录。
  3. 执行命令:hdfs dfs -put student.txt /student/input,上传文件。
  4. 执行命令:spark-shell --master spark://master:7077,启动Spark Shell。
  5. 执行命令:val ds = spark.read.textFile("hdfs://master:9000/student/input/student.txt"),读取文件得到数据集。
  6. 执行命令:ds.show,显示数据集内容。
  7. 执行命令:ds.printSchema,显示数据集模式。
  8. 定义学生样例类:case class Student(id: Int, name: String, gender: String, age: Int)。
  9. 导入隐式转换:import spark.implicits._。
  10. 将数据集转成学生数据集:val studentDS = ds.map(line => { val fields = line.split(","); val id = fields(0).toInt; val name = fields(1); val gender = fields(2); val age = fields(3).toInt; Student(id, name, gender, age) })。
  11. 对学生数据集进行操作,如投影、过滤、统计和排序等。
相关推荐
邮专薛之谦3 小时前
MySQL 完整SQL指令大全(含详细解释+实战示例)
数据库·sql·mysql
YL200404263 小时前
MySQL-进阶篇-SQL优化
数据库·sql·mysql
Mike117.4 小时前
GBase 8c schema 和 search_path 引发的对象定位问题
数据库·sql·oracle
丑八怪大丑5 小时前
SQL新特性
数据库·sql
极智视界6 小时前
分割数据集 - 自动驾驶场景分割数据集下载
自动驾驶·数据集·图像分割·分割算法·算法训练·yolo格式
码农阿豪9 小时前
Go 语言操作金仓数据库(下篇):SQL 执行、类型映射与超时控制
数据库·sql·golang
今天也是元气满满的一天呢10 小时前
20260512-SQL学习大览
数据库·sql·学习
北秋,10 小时前
Web Security Academy 第二关:SQL 注入登录绕过
数据库·sql
一个数据大开发10 小时前
DB-GPT + StarRocks 实现企业级智能问数:从 Text-to-SQL 到指标治理落地方案
数据库·sql·gpt
唐青枫10 小时前
别再误会 SELECT 1:MySQL 常量查询与存在性判断实战
sql·mysql