利用IDEA开发Spark-SQL

创建子模块Spark-SQL,并添加依赖

创建Spark-SQL的测试代码:

运行结果:

自定义函数:

UDF:

UDAF(自定义聚合函数)

强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数, 如 count(),

countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。Spark3.0之前我们使用的是UserDefinedAggregateFunction作为自定义聚合函数,从 Spark3.0 版本后可以统一采用强类型聚合函数 Aggregator

实验需求:计算平均工资

实现方式一:RDD

实现方式二:弱类型UDAF

运行结果:

相关推荐
星辰离彬4 小时前
Java 与 MySQL 性能优化:Java应用中MySQL慢SQL诊断与优化实战
java·后端·sql·mysql·性能优化
zhuiQiuMX6 小时前
脉脉maimai面试死亡日记
数据仓库·sql·面试
暗影八度9 小时前
Spark流水线数据质量检查组件
大数据·分布式·spark
苦学编程的谢11 小时前
Maven
java·maven·intellij-idea
GEEK零零七12 小时前
Leetcode 1070. 产品销售分析 III
sql·算法·leetcode
Bella_chene12 小时前
IDEA中无法使用JSP内置对象
java·servlet·intellij-idea·jsp
御控工业物联网14 小时前
御控网关如何实现MQTT、MODBUS、OPCUA、SQL、HTTP之间协议转换
数据库·sql·http
Code季风15 小时前
SQL关键字快速入门:CASE 实现条件逻辑
javascript·数据库·sql
kk在加油17 小时前
Mysql锁机制与优化实践以及MVCC底层原理剖析
数据库·sql·mysql
Percep_gan17 小时前
idea的使用小技巧,个人向
java·ide·intellij-idea