利用IDEA开发Spark-SQL

创建子模块Spark-SQL,并添加依赖

创建Spark-SQL的测试代码:

运行结果:

自定义函数:

UDF:

UDAF(自定义聚合函数)

强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数, 如 count(),

countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。Spark3.0之前我们使用的是UserDefinedAggregateFunction作为自定义聚合函数,从 Spark3.0 版本后可以统一采用强类型聚合函数 Aggregator

实验需求:计算平均工资

实现方式一:RDD

实现方式二:弱类型UDAF

运行结果:

相关推荐
Tony Bai7 小时前
【Go开发者的数据库设计之道】07 诊断篇:SQL 性能诊断与问题排查
开发语言·数据库·后端·sql·golang
weixin_436525079 小时前
Gitee - IDEA 主支 master 和分支 dev 的使用
java·ide·intellij-idea
小蕾Java10 小时前
Java 开发工具,最新2025 IDEA 使用
java·ide·intellij-idea
是席木木啊10 小时前
Idea升级到2024版本:“marketplace plugins are not loaded”解决方案
java·ide·intellij-idea
胚芽鞘68110 小时前
博客标题:解密 IntelliJ IDEA 调试:当你的 List 不仅仅是 List
java·ide·intellij-idea
HezhezhiyuLe10 小时前
IDEA中Add New Configuration找不到Tomcat
java·ide·intellij-idea
zzxxlty11 小时前
maven install依赖后 另一个项目 maven reload找不到包
java·maven·intellij-idea
炬火初现12 小时前
SQL语句——高级字符串函数 / 正则表达式 / 子句
数据库·sql
编程充电站pro13 小时前
SQL 性能优化:为什么少用函数在 WHERE 条件中?
数据库·sql
TDengine (老段)14 小时前
TDengine 时序函数 DERIVATIVE 用户手册
大数据·数据库·sql·物联网·时序数据库·iot·tdengine