Spark SQL - 操作数据集

本教程将通过一个具体的案例来演示如何在Spark SQL中操作数据集。我们将从创建本地文件开始,然后上传到HDFS,并使用Spark Shell启动Spark程序。接下来,我们将加载数据为DataSet,并给DataSet添加元数据信息。最后,我们将对数据集进行各种操作,如投影、过滤、统计和排序等。

具体步骤如下:

  1. /home目录里创建student.txt文件。
  2. 执行命令:hdfs dfs -mkdir -p /student/input,创建目录。
  3. 执行命令:hdfs dfs -put student.txt /student/input,上传文件。
  4. 执行命令:spark-shell --master spark://master:7077,启动Spark Shell。
  5. 执行命令:val ds = spark.read.textFile("hdfs://master:9000/student/input/student.txt"),读取文件得到数据集。
  6. 执行命令:ds.show,显示数据集内容。
  7. 执行命令:ds.printSchema,显示数据集模式。
  8. 定义学生样例类:case class Student(id: Int, name: String, gender: String, age: Int)。
  9. 导入隐式转换:import spark.implicits._。
  10. 将数据集转成学生数据集:val studentDS = ds.map(line => { val fields = line.split(","); val id = fields(0).toInt; val name = fields(1); val gender = fields(2); val age = fields(3).toInt; Student(id, name, gender, age) })。
  11. 对学生数据集进行操作,如投影、过滤、统计和排序等。
相关推荐
德育处主任Pro3 小时前
『n8n』不用写SQL,了解一下内置的Datatable
数据库·sql
NineData3 小时前
NineData 社区版 V4.9.0 发布!支持应用切换能力以降低迁移风险,慢查询新增外部采集来源
数据库·sql·ninedata·社区版·v4.9.0·sql开发工具·navicat平替
heimeiyingwang4 小时前
官网知识库结构化整理指南
java·sql·架构·database
山岚的运维笔记5 小时前
SQL Server笔记 -- 第34章:cross apply
服务器·前端·数据库·笔记·sql·microsoft·sqlserver
阿里云大数据AI技术6 小时前
阿里云 EMR Serverless Spark TPC-DS 100T 榜首背后的内核技术
spark
认真的薛薛7 小时前
数据库-主从故障排查,gitd,延时同步
数据库·sql·mysql
麦聪聊数据8 小时前
后端研发范式演进:从对象映射(ORM)到逻辑解耦(SQL2API)
数据库·sql·架构
音沐mu.8 小时前
【59】无人机红外视角人车数据集(有v5/v8模型)/YOLO无人机红外视角人车检测
yolo·目标检测·数据集·目标检测数据集·无人机红外视角人车数据集·无人机红外视角人车检测
SQL必知必会9 小时前
SQL 数据分析终极指南
数据库·sql·数据分析
C#程序员一枚9 小时前
大字段查询性能优化终极方案
sql·c#