Spark SQL - 操作数据集

本教程将通过一个具体的案例来演示如何在Spark SQL中操作数据集。我们将从创建本地文件开始,然后上传到HDFS,并使用Spark Shell启动Spark程序。接下来,我们将加载数据为DataSet,并给DataSet添加元数据信息。最后,我们将对数据集进行各种操作,如投影、过滤、统计和排序等。

具体步骤如下:

  1. /home目录里创建student.txt文件。
  2. 执行命令:hdfs dfs -mkdir -p /student/input,创建目录。
  3. 执行命令:hdfs dfs -put student.txt /student/input,上传文件。
  4. 执行命令:spark-shell --master spark://master:7077,启动Spark Shell。
  5. 执行命令:val ds = spark.read.textFile("hdfs://master:9000/student/input/student.txt"),读取文件得到数据集。
  6. 执行命令:ds.show,显示数据集内容。
  7. 执行命令:ds.printSchema,显示数据集模式。
  8. 定义学生样例类:case class Student(id: Int, name: String, gender: String, age: Int)。
  9. 导入隐式转换:import spark.implicits._。
  10. 将数据集转成学生数据集:val studentDS = ds.map(line => { val fields = line.split(","); val id = fields(0).toInt; val name = fields(1); val gender = fields(2); val age = fields(3).toInt; Student(id, name, gender, age) })。
  11. 对学生数据集进行操作,如投影、过滤、统计和排序等。
相关推荐
PersistJiao3 小时前
Spark 分布式计算中网络传输和序列化的关系(二)
大数据·网络·spark·序列化·分布式计算
王ASC4 小时前
ORA-01461: 仅能绑定要插入 LONG 列的 LONG 值。ojdbc8版本23.2.0.0驱动BUG【已解决】
数据库·sql·oracle
执键行天涯5 小时前
【日常经验】修改大数据量的表字段类型,怎么修改更快
sql
sevevty-seven6 小时前
幻读是什么?用什么隔离级别可以防止幻读
大数据·sql
PersistJiao7 小时前
Spark RDD 的宽依赖和窄依赖
spark·rdd·宽窄依赖
那一抹阳光多灿烂8 小时前
Spark中的Stage概念
大数据·spark
天涯倦客的美丽人生11 小时前
SQL递归查询树结构语法
数据库·sql
OceanBase数据库官方博客13 小时前
OceanBase 中常用的查询语句
sql·oceanbase·分布式数据库·查询语句
网络安全指导员13 小时前
SQL注入的那些面试题总结
数据库·sql·安全·web安全·系统安全
奈斯ing13 小时前
【Oracle篇】SQL性能优化实战案例(从15秒优化到0.08秒)(第七篇,总共七篇)
运维·数据库·sql·oracle·性能优化