Spark与SQL之间NB的转换_withClumn,split及SubString

业务描述

业务中有这样一个场景,我想实现的是将dataframe表table1中的字段b1与c1的内容使用下划线_连接起来列的名字为d1,比如比如学习_1,睡觉_2,吃饭_3,这是我的第一个需求;随后我想保留的是dataframe表table1中的字段d1中的数据比如学习_1,睡觉_2,吃饭_3,中的数据中_前后的数据分别作为两列e1,f1。

该怎么写这个spark代码,我的想法是使用withclumn函数及split函数.sql来写的话就是使用subString函数来进行_匹配。

为什么要这么做,因为单独的b1列是一个目标的id,而b2是作为每天不同时间段传过来数据的批号,一批一批的实时数据过来,一个目标一天内对应许多个批次数据,批次的名称是单独不重复的。为了后面做类别,先把目标,批次联合在一起,做一个联合 '目标_批次',然后再把目标,批次拆开供后面的聚合使用。

比如说

sql代码

sql 复制代码
SELECT SUBSTRING_INDEX(a1, '_', 1) AS a2
FROM table1;

Spark代码

创建一个DataFrame,名为table1,将b1c1字段的内容使用下划线连接起来,并将新的列命名为d1

Scala 复制代码
import org.apache.spark.sql.functions._  
  
val table1 = Seq(  
  ("学习", "1"),  
  ("睡觉", "2"),  
  ("吃饭", "3")  
).toDF("b1", "c1")  
  
val table1_d1 = table1.withColumn("d1", concat($"b1", "_", $"c1"))

使用split函数将d1字段中的数据拆分为两列e1f1

Scala 复制代码
val table1_d1_split = table1_d1.withColumn("e1", split(col("d1"), "_")(0))  
                               .withColumn("f1", split(col("d1"), "_")(1))

table1_d1_split.show()

table1_d1_split DataFrame将包含新的列e1f1,分别包含下划线前后的数据

Scala 复制代码
+------+------+------+------+------+  
|   b1 |   c1 |   d1 |   e1 |   f1 |  
+------+------+------+------+------+  
| 学习 |   1  | 学习_1 | 学习 |   1  |  
| 睡觉 |   2  | 睡觉_2 | 睡觉 |   2  |  
| 吃饭 |   3  | 吃饭_3 | 吃饭 |   3  | 

sql的就是不断地截取

整体的处理这块逻辑代码:

Scala 复制代码
import org.apache.spark.sql.functions._  
  
val table1 = Seq(  
  ("学习", "1"),  
  ("睡觉", "2"),  
  ("吃饭", "3")  
).toDF("b1", "c1")  
  
val table1_d1 = table1.withColumn("d1", concat($"b1", "_", $"c1"))
val table1_d1_split = table1_d1.withColumn("e1", split(col("d1"), "_")(0))  
                               .withColumn("f1", split(col("d1"), "_")(1))

table1_d1_split.show()
相关推荐
Guheyunyi6 小时前
智能守护:视频安全监测系统的演进与未来
大数据·人工智能·科技·安全·信息可视化
发哥来了7 小时前
主流AI视频生成商用方案选型评测:五大核心维度对比分析
大数据·人工智能
数研小生7 小时前
做京东评论分析系统11年,京东评论数据接口解析
大数据
金融小师妹8 小时前
基于LSTM-GARCH-EVT混合模型的贵金属极端波动解析:黄金白银双双反弹的逻辑验证
大数据·人工智能·深度学习·机器学习
yumgpkpm10 小时前
2026软件:白嫖,开源,外包,招标,晚进场(2025年下半年),数科,AI...中国的企业软件产业出路
大数据·人工智能·hadoop·算法·kafka·开源·cloudera
山岚的运维笔记10 小时前
SQL Server笔记 -- 第15章:INSERT INTO
java·数据库·笔记·sql·microsoft·sqlserver
xixixi7777710 小时前
今日 AI 、通信、安全行业前沿日报(2026 年 2 月 4 日,星期三)
大数据·人工智能·安全·ai·大模型·通信·卫星通信
Wasim40411 小时前
【渗透测试】SQL注入
网络·数据库·sql
珠海西格12 小时前
1MW光伏项目“四可”装置改造:逆变器兼容性评估方法详解
大数据·运维·服务器·云计算·能源
迎仔12 小时前
13-云原生大数据架构介绍:大数据世界的“弹性城市”
大数据·云原生·架构