利用IDEA开发Spark-SQL

创建子模块Spark-SQL,并添加依赖

创建Spark-SQL的测试代码:

运行结果:

自定义函数:

UDF:

UDAF(自定义聚合函数)

强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数, 如 count(),

countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。Spark3.0之前我们使用的是UserDefinedAggregateFunction作为自定义聚合函数,从 Spark3.0 版本后可以统一采用强类型聚合函数 Aggregator

实验需求:计算平均工资

实现方式一:RDD

实现方式二:弱类型UDAF

运行结果:

相关推荐
бесплатно22 分钟前
Spark-Core(RDD行动算子)
大数据·分布式·spark
篱笆院的狗41 分钟前
MySQL 中如何进行 SQL 调优?
java·sql·mysql
ABdolphin2 小时前
Spring-博客系统项目
数据库·sql·spring
闪电麦坤954 小时前
SQL:SELF JOIN(自连接)与CROSS JOIN(交叉连接)
数据库·sql·mysql
Minyy116 小时前
“爱生活”小项目问题总结
java·数据库·spring boot·spring·maven·intellij-idea
大G哥6 小时前
【SQL 周周练】爬取短视频发现数据缺失,如何用 SQL 填充
数据库·sql
哞哞不熬夜8 小时前
JavaEE--文件操作和IO
java·开发语言·windows·学习·java-ee·intellij-idea·idea
yyywoaini~9 小时前
RDD有哪几种创建方式
spark
途中刂9 小时前
第一章 初识Java
java·开发语言·笔记·学习·intellij-idea
wuli玉shell11 小时前
spark-Schema 定义字段强类型和弱类型
android·java·spark