Spark-SQL核心编程语言

利用IDEA开发spark-SQL

创建spark-SQL测试代码

自定义函数UDF

自定义聚合函数UDAF

强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数, 如 count(),

countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。Spark3.0之前我们使用的是UserDefinedAggregateFunction作为自定义聚合函数,从 Spark3.0 版本后可以统一采用强类型聚合函数 Aggregator

案例:计算平均工资

实现方式一:RDD

实现方式二:强类型UDAF

实现方式三:弱类型UDAF

相关推荐
D愿你归来仍是少年1 天前
Apache Spark 第六章:执行计划与 DAG 调度
大数据·spark
Hello.Reader2 天前
PySpark DataFrame 快速入门创建、查询、分组、读写、SQL 实战一篇讲透
数据库·sql·spark
D愿你归来仍是少年2 天前
Apache Spark 第五章:Spark SQL 与 DataFrame
大数据·spark
D愿你归来仍是少年4 天前
Apache Spark 第 3 章:核心概念 RDD / DataFrame
大数据·spark·apache
Hello.Reader4 天前
PySpark 安装保姆级教程pip、Conda、手动安装、Spark Connect 一次讲透(一)
python·spark·conda·pip
Light604 天前
SPARK Agent Protocol(SAP):AI Agent时代的前端开发革命指南
大数据·人工智能·spark
D愿你归来仍是少年4 天前
Apache Spark 第 4 章:Spark 整体架构
spark·apache
datablau国产数据库建模工具4 天前
【无标题】
大数据·数据挖掘·spark
yumgpkpm4 天前
Apache Spark 和 Flink,处理实时大数据流对比(Cloudera CDH、CDP)
flink·spark·apache
D愿你归来仍是少年5 天前
Apache Spark 从入门到精通:完整学习指南
大数据·spark