【Spark】用udf和withColumn在dafaframe中创建新列

udf使用

import org.apache.spark.sql.functions.udf

udf接收一个函数(func)作为参数,返回一个UserDefinedFunction。

UserDefinedFunction接收列(Column)作为参数,并返回Column.

func可以接收普通类型参数,并返回普通类型结果。

udf会自动把Column入参转化成对应func的入参,并将func返回的结果转化成Column类型。、

注意由于udf限制。func最多接收10个参数

scala 复制代码
import org.apache.spark.sql.functions._
//一个或多个参数
val UDF0= udf{
	(c1:String,c2:Int,...,)=> 函数体
}

df.withColumn("new",UDF0(col("old1"),col("old2")...))

//整行输入
val UDF1= udf{
	(row: Row) => 处理Row类型的函数体,最好返回常规类型
}

val columns = df.columns

df.withColumn("new",UDF1(struct(columns.map(x=>col(x)): _*))

// 注册到sql中使用
 df.createOrReplaceTempView("tempview")
 spark.udf.register("UDF0", UDF0)
 spark.sql("select *, UDF0(struct(`old1`, `old2`, `...`)) as new from tempview").show(100)

struct函数说明:

scala 复制代码
def struct(colName: String, colNames: String*): Column
// Creates a new struct column that composes multiple input columns.
def struct(cols: Column*): Column
// Creates a new struct column. If the input column is a column in a DataFrame, or a derived column expression that is named (i.e. aliased), its name would be retained as the StructField's name, otherwise, the newly generated StructField's name would be auto generated as col with a suffix index + 1, i.e. col1, col2, col3, ...

参考

create-new-column-with-function-in-spark-dataframe

【官方】udf使用
【官方】udf接口
Spark SQL UDF (User Defined Functions)

相关推荐
_oP_i7 分钟前
Windows 下往 Elasticsearch 添加数据
大数据·windows·elasticsearch
TDengine (老段)30 分钟前
TDengine Node.js 语言连接器入门指南
大数据·开发语言·物联网·node.js·vim·时序数据库·tdengine
拓端研究室30 分钟前
2026年人形机器人展望报告:市场趋势、技术创新与行业应用|附300+份报告PDF、数据、可视化模板汇总下载
大数据·人工智能·microsoft
拓端研究室33 分钟前
2026中国游戏产业趋势及潜力分析报告:小游戏、AI应用、出海趋势|附160+份报告PDF、数据、可视化模板汇总下载
大数据·人工智能
APItesterCris39 分钟前
商品详情 API 的签名验证与安全接入技术要点
大数据·数据库·安全·架构
达瓦里氏12342 分钟前
一文厘清:医疗器械一类、二类、三类的划分逻辑
大数据·健康医疗
Lansonli1 小时前
大数据Spark(七十六):Action行动算子reduce和take、takeSample使用案例
大数据·分布式·spark
鲨莎分不晴1 小时前
HBase 基本使用详解
大数据·数据库·hbase
Sinokap1 小时前
Gemini 3 Flash:在速度、成本与前沿智能之间的平衡
大数据·人工智能
SpaceAIGlobal1 小时前
基于 Elasticsearch 实现排序沉底与前置的方法解析
大数据·elasticsearch·搜索引擎