Spark-SQL核心编程语言

利用IDEA开发spark-SQL

创建spark-SQL测试代码

自定义函数UDF

自定义聚合函数UDAF

强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数, 如 count(),

countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。Spark3.0之前我们使用的是UserDefinedAggregateFunction作为自定义聚合函数,从 Spark3.0 版本后可以统一采用强类型聚合函数 Aggregator

案例:计算平均工资

实现方式一:RDD

实现方式二:强类型UDAF

实现方式三:弱类型UDAF

相关推荐
蒙特卡洛的随机游走15 小时前
Spark核心数据(RDD、DataFrame 和 Dataset)
大数据·分布式·spark
蒙特卡洛的随机游走17 小时前
Spark的宽依赖与窄依赖
大数据·前端·spark
Lansonli18 小时前
大数据Spark(六十九):Transformation转换算子intersection和subtract使用案例
大数据·分布式·spark
励志成为糕手1 天前
宽依赖的代价:Spark 与 MapReduce Shuffle 的数据重分布对比
大数据·spark·mapreduce·分布式计算·sortshuffle
weixin_525936331 天前
部分Spark SQL编程要点
大数据·python·sql·spark
智海观潮2 天前
学好Spark必须要掌握的Scala技术点
大数据·spark·scala
数智顾问3 天前
破解 Shuffle 阻塞:Spark RDD 宽窄依赖在实时特征工程中的实战与未来
大数据·分布式·spark
想ai抽3 天前
吃透大数据算法-算法地图(备用)
大数据·数据库·spark
一个java开发3 天前
spark热点key导致的数据倾斜复现和加盐处理
大数据·spark
IT研究室3 天前
大数据毕业设计选题推荐-基于大数据的商店购物趋势分析与可视化系统-大数据-Spark-Hadoop-Bigdata
大数据·spark·课程设计