将单列数据帧转换成多列数据帧

howard20052024-06-05 13:36

文章目录

[1. 查看数据文件](#1. 查看数据文件)
[2. 读取数据文件得到单例数据帧](#2. 读取数据文件得到单例数据帧)
[3. 将单列数据帧转换成多列数据帧](#3. 将单列数据帧转换成多列数据帧)
在本次实战中，我们的目标是将存储在HDFS上的以逗号分隔的文本文件student.txt转换为结构化的Spark DataFrame。首先，使用spark.read.text读取文件，得到一个包含单列value的DataFrame。然后，利用split函数按逗号分割每行字符串，并通过withColumn和类型转换cast创建新的列id、name、gender和age。最后，使用drop函数移除原始的value列，并使用show和printSchema验证转换结果。通过这一系列操作，我们成功地将原始文本数据转换为具有明确数据类型和列名的结构化数据集，为后续的数据分析和处理打下了基础。

1. 查看数据文件

执行命令：hdfs dfs -cat /student/input/student.txt

2. 读取数据文件得到单例数据帧

执行命令：val df = spark.read.text("hdfs://master:9000/student/input/student.txt")
执行命令：df.show

3. 将单列数据帧转换成多列数据帧

scala 复制代码

val stuDF = df
  .withColumn("id", split(col("value"), ",")(0).cast("int"))
  .withColumn("name", split(col("value"), ",")(1))
  .withColumn("gender", split(col("value"), ",")(2))
  .withColumn("age", split(col("value"), ",")(3).cast("int"))
  .drop("value") // 删除原始的 value 列

执行上述命令
执行命令：stuDF.printSchema
执行命令：stuDF.show

上一篇：Spark SQL - 操作数据帧

下一篇：大数据数据治理

热门推荐

01GitHub 镜像站点 02React CVE-2025-55182漏洞排查与修复指南 03【超详细教程】手把手教你从微软官网免费下载Windows 10官方原版ISO镜像（2025最新版）04安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）05UV安装并设置国内源 06BongoCat - 跨平台键盘猫动画工具 07本地部署阿里最新开源的Z-Image 08智能库存管理的需求预测模型：从业务痛点到落地代码的完整实践 09Linux下V2Ray安装配置指南 10论文阅读 - 深度学习端到端解决库存管理问题 - 有限时间范围内的多周期补货问题（Management Science）