Spark SQL - 操作数据集

本教程将通过一个具体的案例来演示如何在Spark SQL中操作数据集。我们将从创建本地文件开始,然后上传到HDFS,并使用Spark Shell启动Spark程序。接下来,我们将加载数据为DataSet,并给DataSet添加元数据信息。最后,我们将对数据集进行各种操作,如投影、过滤、统计和排序等。

具体步骤如下:

  1. /home目录里创建student.txt文件。
  2. 执行命令:hdfs dfs -mkdir -p /student/input,创建目录。
  3. 执行命令:hdfs dfs -put student.txt /student/input,上传文件。
  4. 执行命令:spark-shell --master spark://master:7077,启动Spark Shell。
  5. 执行命令:val ds = spark.read.textFile("hdfs://master:9000/student/input/student.txt"),读取文件得到数据集。
  6. 执行命令:ds.show,显示数据集内容。
  7. 执行命令:ds.printSchema,显示数据集模式。
  8. 定义学生样例类:case class Student(id: Int, name: String, gender: String, age: Int)。
  9. 导入隐式转换:import spark.implicits._。
  10. 将数据集转成学生数据集:val studentDS = ds.map(line => { val fields = line.split(","); val id = fields(0).toInt; val name = fields(1); val gender = fields(2); val age = fields(3).toInt; Student(id, name, gender, age) })。
  11. 对学生数据集进行操作,如投影、过滤、统计和排序等。
相关推荐
competes43 分钟前
慈善基金投资底层逻辑应用 顶层代码低代码配置平台开发结构方式数据存储模块
java·开发语言·数据库·windows·sql
0xDevNull2 小时前
MySQL 别名(Alias)指南:从入门到避坑
java·数据库·sql
正在走向自律9 小时前
KingbaseES 基础 SQL 语法与日常运维实操手册
运维·数据库·sql·kingbasees
AKA__Zas10 小时前
初识 事务
java·开发语言·数据库·sql
xyyaihxl10 小时前
【SQL技术】不同数据库引擎 SQL 优化方案剖析
数据库·sql
武子康12 小时前
大数据-272 Spark MLib-Spark MLlib 逻辑回归实战:二分类场景下的原理与代码实现
大数据·后端·spark
℡終嚸♂6801 天前
FlowiseAI 任意文件上传 CTF Writeup
sql·web安全
与衫1 天前
[特殊字符] 解决 DataHub 无法解析复杂 SQL 血缘的问题(gsp-datahub-sidecar 实测)
数据库·sql
以神为界1 天前
数据库入门全指南:从基础概念到实操操作(含SQL+Navicat)
网络·数据库·sql·安全
Elastic 中国社区官方博客1 天前
Elasticsearch:快速近似 ES|QL - 第二部分
大数据·数据库·sql·elasticsearch·搜索引擎·全文检索