利用IDEA开发Spark-SQL

创建子模块Spark-SQL,并添加依赖

创建Spark-SQL的测试代码:

运行结果:

自定义函数:

UDF:

UDAF(自定义聚合函数)

强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数, 如 count(),

countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。Spark3.0之前我们使用的是UserDefinedAggregateFunction作为自定义聚合函数,从 Spark3.0 版本后可以统一采用强类型聚合函数 Aggregator

实验需求:计算平均工资

实现方式一:RDD

实现方式二:弱类型UDAF

运行结果:

相关推荐
何传令11 小时前
SQL排查、分析海量数据以及锁机制
数据库·sql·mysql
刘火锅13 小时前
解决IDEA拉取GitLab项目报错:必须为访问令牌授予作用域[api, read user]
java·gitlab·intellij-idea
不辉放弃14 小时前
Spark的累加器(Accumulator)
大数据·数据库·spark
梦想养猫开书店14 小时前
36、spark-measure 源码修改用于数据质量监控
大数据·分布式·spark
ALLSectorSorft15 小时前
相亲小程序聊天与互动系统模块搭建
java·数据库·sql·microsoft·oracle
Python大数据分析@18 小时前
SQL 怎么学?
数据库·sql·oracle
命苦的孩子19 小时前
List 接口
java·数据结构·list·intellij-idea
小云数据库服务专线19 小时前
GaussDB 约束的语法
数据库·sql·gaussdb
码界筑梦坊20 小时前
91-基于Spark的空气质量数据分析可视化系统
大数据·python·数据分析·spark·django·numpy·pandas
linweidong20 小时前
深入剖析 Spark Shuffle 机制:从原理到实战优化
大数据·分布式·spark·spark sql·数据开发·shuffle·数据倾斜