Spark-SQL核心编程语言

利用IDEA开发spark-SQL

创建spark-SQL测试代码

自定义函数UDF

自定义聚合函数UDAF

强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数, 如 count(),

countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。Spark3.0之前我们使用的是UserDefinedAggregateFunction作为自定义聚合函数,从 Spark3.0 版本后可以统一采用强类型聚合函数 Aggregator

案例:计算平均工资

实现方式一:RDD

实现方式二:强类型UDAF

实现方式三:弱类型UDAF

相关推荐
筑梦之人1 小时前
Spark-3.5.7文档4 - Structured Streaming 编程指南
spark
Q26433650232 小时前
【有源码】基于Hadoop+Spark的起点小说网大数据可视化分析系统-基于Python大数据生态的网络文学数据挖掘与可视化系统
大数据·hadoop·python·信息可视化·数据分析·spark·毕业设计
筑梦之人3 小时前
Spark-3.5.7文档2 - RDD 编程指南
大数据·分布式·spark
潘达斯奈基~6 小时前
spark性能优化2:Window操作和groupBy操作的区别
大数据·性能优化·spark
yumgpkpm10 小时前
CMP(类Cloudera CDP 7.3 404版华为泰山Kunpeng)和Apache Doris的对比
大数据·hive·hadoop·spark·apache·hbase·cloudera
乌恩大侠21 小时前
DGX Spark 恢复系统
大数据·分布式·spark
梦里不知身是客112 天前
spark读取table中的数据【hive】
大数据·hive·spark
赞奇科技Xsuperzone2 天前
DGX Spark 实战解析:模型选择与效率优化全指南
大数据·人工智能·gpt·spark·nvidia
更深兼春远2 天前
Spark on Yarn安装部署
大数据·分布式·spark
涤生大数据2 天前
日均亿级数据的实时分析:Doris如何接过Spark的接力棒?
大数据·spark·doris·实时计算·大数据开发·实时分析·实时技术