Spark-SQL核心编程语言

利用IDEA开发spark-SQL

创建spark-SQL测试代码

自定义函数UDF

自定义聚合函数UDAF

强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数, 如 count(),

countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。Spark3.0之前我们使用的是UserDefinedAggregateFunction作为自定义聚合函数,从 Spark3.0 版本后可以统一采用强类型聚合函数 Aggregator

案例:计算平均工资

实现方式一:RDD

实现方式二:强类型UDAF

实现方式三:弱类型UDAF

相关推荐
howard200515 小时前
2.4.3 集群模式运行Spark项目
spark·项目打包·提交运行
孤雪心殇15 小时前
快速上手数仓基础知识
数据仓库·hive·spark
渣渣盟17 小时前
Spark 性能调优实战:从开发到生产落地
javascript·ajax·spark
渣渣盟2 天前
大数据技术栈全景图:从零到一的入门路线(深度实战版)
大数据·hadoop·python·flink·spark
DolphinScheduler社区3 天前
DolphinScheduler 3.3.2 如何调用 DataX 3.0 + SeaTunnel 2.3.12?附 Demo演示!
java·spark·apache·海豚调度·大数据工作流调度
Leo.yuan3 天前
数据仓库是什么?数据仓库和大数据平台、数据湖、数据中台、湖仓一体有什么区别?
大数据·数据仓库·spark
heiqizero3 天前
Spark RDD动作算子
spark
heiqizero3 天前
Spark RDD转换算子02
spark
heiqizero4 天前
Spark RDD转换算子01
spark
武子康7 天前
大数据-278 Spark MLib-GBDT梯度提升决策树详解:从原理到实战案例
大数据·后端·spark