利用IDEA开发Spark-SQL

胡萝卜糊了Ohh2025-04-16 22:26

创建子模块Spark-SQL，并添加依赖

创建Spark-SQL的测试代码：

运行结果：

自定义函数：

UDF：

UDAF（自定义聚合函数）

强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数，如 count()，

countDistinct()，avg()，max()，min()。除此之外，用户可以设定自己的自定义聚合函数。Spark3.0之前我们使用的是UserDefinedAggregateFunction作为自定义聚合函数，从 Spark3.0 版本后可以统一采用强类型聚合函数 Aggregator

实验需求：计算平均工资

实现方式一：RDD

实现方式二：弱类型UDAF

运行结果：