利用IDEA开发Spark-SQL

创建子模块Spark-SQL,并添加依赖

创建Spark-SQL的测试代码:

运行结果:

自定义函数:

UDF:

UDAF(自定义聚合函数)

强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数, 如 count(),

countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。Spark3.0之前我们使用的是UserDefinedAggregateFunction作为自定义聚合函数,从 Spark3.0 版本后可以统一采用强类型聚合函数 Aggregator

实验需求:计算平均工资

实现方式一:RDD

实现方式二:弱类型UDAF

运行结果:

相关推荐
有数的编程笔记1 小时前
Hive/Spark窗口函数
spark·apache hive
好望角雾眠12 小时前
第三阶段数据库-7:sql中函数,运算符,常用关键字
数据库·笔记·sql·学习·sqlserver·c#
NPE~1 天前
[docker/大数据]Spark快速入门
大数据·分布式·docker·spark·教程
2501_916766541 天前
【IDEA2017】使用设置+创建项目的不同方式
java·intellij-idea
funfan05171 天前
IDEA基础配置优化指南(中英双版)
java·ide·intellij-idea
罗小爬EX1 天前
在IDEA中设置新建Java类时自动添加类注释
java·intellij-idea
做一个AC梦1 天前
MiniOB环境部署开发(使用Docker)
数据库·sql·miniob·ob·海扬数据库
l1t1 天前
分析xml标签属性和压缩级别对xlsx文件读取解析的影响
xml·开发语言·python·sql·duckdb
DONG9131 天前
Redis内存架构解析与性能优化实战
数据库·redis·sql·database
派可数据BI可视化1 天前
解读商业智能BI,数据仓库中的元数据
大数据·数据仓库·数据分析·spark·商业智能bi