Spark-SQL核心编程语言

利用IDEA开发spark-SQL

创建spark-SQL测试代码

自定义函数UDF

自定义聚合函数UDAF

强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数, 如 count(),

countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。Spark3.0之前我们使用的是UserDefinedAggregateFunction作为自定义聚合函数,从 Spark3.0 版本后可以统一采用强类型聚合函数 Aggregator

案例:计算平均工资

实现方式一:RDD

实现方式二:强类型UDAF

实现方式三:弱类型UDAF

相关推荐
小伍_Five4 小时前
Spark实战能力测评模拟题精析【模拟考】
java·大数据·spark·scala·intellij-idea
不吃饭的猪4 小时前
记一次运行spark报错
大数据·分布式·spark
qq_463944864 小时前
【Spark征服之路-2.1-安装部署Spark(一)】
大数据·分布式·spark
后端码匠9 小时前
Kafka 单机部署启动教程(适用于 Spark + Hadoop 环境)
hadoop·spark·kafka
技术吧3 天前
Spark-TTS: AI语音合成的“变声大师“
大数据·人工智能·spark
MyikJ5 天前
Java互联网大厂面试:从Spring Boot到Kafka的技术深度探索
java·spring boot·微服务·面试·spark·kafka·spring security
向哆哆5 天前
Java 大数据处理:使用 Hadoop 和 Spark 进行大规模数据处理
java·hadoop·spark
阿里云大数据AI技术5 天前
Fusion引擎赋能:流利说如何用阿里云Serverless Spark实现数仓计算加速
大数据·人工智能·阿里云·spark·serverless·云计算
Matrix706 天前
大数据量下的数据修复与回写Spark on Hive 的大数据量主键冲突排查:COUNT(DISTINCT) 的陷阱
大数据·hive·spark
weixin_307779136 天前
Apache SeaTunnel 引擎深度解析:原理、技术与高效实践
大数据·flink·spark·数据库开发·etl