Spark-SQL

深入Spark-SQL核心编程:自定义函数与聚合函数实战

  • 在大数据处理领域,Spark-SQL凭借其强大的功能和灵活的操作方式备受青睐。今天,我们就一起深入探索Spark-SQL中的自定义函数和聚合函数,通过实际案例来揭开它们的神秘面纱。
  • 在开发Spark-SQL应用时,首先要在IDEA中创建子模块并添加依赖,引入spark-sql_2.12库,版本选择3.0.0 ,这就为后续的开发搭建好了基础环境。
  • 自定义函数中,UDF(User-Defined Function)是一种非常实用的工具。假设我们有一个包含用户信息的JSON文件,里面有用户名和年龄等字段。通过创建SparkSession读取这个文件后,我们可以使用UDF来对用户名进行处理。比如,想在每个用户名前加上"Name:",代码如下:
  • val sparkConf = new SparkConf().setMaster("local[*]").setAppName("SQLDemo")
  • val spark = SparkSession.builder().config(sparkConf).getOrCreate()
  • import spark.implicits._
  • val df = spark.read.json("Spark-SQL/input/user.json")
  • spark.udf.register("addName",(x:String)=>"Name:"+x)
  • df.createOrReplaceTempView("people")
  • spark.sql("select addName(username),age from people").show()
  • spark.stop()
  • 这段代码中,spark.udf.register注册了一个名为addName的UDF,它接收一个字符串类型的用户名,返回添加前缀后的新字符串。之后通过SQL语句调用这个UDF,就能得到想要的结果。
  • 接下来看看自定义聚合函数。假设计算员工的平均工资,有多种实现方式。
  • 使用RDD的方式比较直观,先将数据转换为RDD,再通过map和reduce操作进行计算:
  • val sparkconf = new SparkConf().setAppName("app").setMaster("local[*]")
  • val sc = new SparkContext(conf)
  • val resRDD = sc.makeRDD(List(("zhangsan", 20), ("lisi", 30), ("wangwu",40))).map {
  • case (name, salary) => (salary, 1)
  • }.reduce {
  • (t1, t2) => (t1._1 + t2._1, t1._2 + t2._2)
  • println(resRDD._1/resRDD._2)
  • sc.stop()
  • 在Spark 3.0之前,弱类型UDAF(User-Defined Aggregate Function)可以实现自定义聚合。要计算平均工资,需要定义一个类继承UserDefinedAggregateFunction,并实现它的多个方法,如inputSchema定义输入数据的结构,bufferSchema定义缓冲区数据结构等。之后注册这个UDAF,在SQL语句中调用:
  • class MyAverageUDAF extends UserDefinedAggregateFunction{
  • // 省略具体实现方法
  • }
  • val sparkconf = new SparkConf().setAppName("app").setMaster("local[*]")
  • val spark = SparkSession.builder().config(conf).getOrCreate()
  • import spark.implicits._
  • val res = spark.sparkContext.makeRDD(List(("zhangsan", 20), ("lisi", 30), ("wangwu",40)))
  • val df = res.toDF("name","salary")
  • df.createOrReplaceTempView("user")
  • var myAverage = new MyAverageUDAF
  • spark.udf.register("avgSalary",myAverage)
  • spark.sql("select avgSalary(salary) from user").show()
  • spark.stop()
  • 从Spark 3.0开始,强类型UDAF(Aggregator)使用起来更加方便。同样以计算平均工资为例,先定义一个用于存储中间结果的样例类,再创建继承Aggregator的类,实现相关方法:
  • case class Buff(var sum:Long,var cnt:Long)
  • class MyAverageUDAF extends Aggregator[Long,Buff,Double]{
  • // 省略具体实现方法
  • }
  • val sparkconf = new SparkConf().setAppName("app").setMaster("local[*]")
  • val spark = SparkSession.builder().config(conf).getOrCreate()
  • import spark.implicits._
  • val res = spark.sparkContext.makeRDD(List(("zhangsan", 20), ("lisi", 30), ("wangwu",40)))
  • val df = res.toDF("name","salary")
  • df.createOrReplaceTempView("user")
  • var myAverage = new MyAverageUDAF
  • spark.udf.register("avgSalary",functions.udaf(myAverage))
  • spark.sql("select avgSalary(salary) from user").show()
  • spark.stop()
  • 通过这些不同方式的实践,我们能更灵活地运用Spark-SQL进行数据处理,根据实际需求选择最合适的方法,提升大数据处理的效率和效果。希望大家在实践中不断探索,掌握更多Spark-SQL的技巧。
相关推荐
hetao17338376 小时前
2025-12-12~14 hetao1733837的刷题笔记
数据结构·c++·笔记·算法
Li.CQ8 小时前
SQL学习笔记(二)
笔记·sql·学习
自不量力的A同学10 小时前
OpenNJet v3.3.1.3
笔记
charlie11451419110 小时前
如何快速在 VS2026 上使用 C++ 模块 — 完整上手指南
开发语言·c++·笔记·学习·现代c++
可信计算11 小时前
【算法随想】一种基于“视觉表征图”拓扑变化的NLP序列预测新范式
人工智能·笔记·python·算法·自然语言处理
历程里程碑11 小时前
C++ 9 stack_queue:数据结构的核心奥秘
java·开发语言·数据结构·c++·windows·笔记·算法
亭台15 小时前
【Matlab笔记_23】MATLAB的工具包m_map的m_image和m_pcolor区别
笔记·算法·matlab
Jack___Xue15 小时前
LangChain实战快速入门笔记(五)--LangChain使用之Tools
笔记·microsoft·langchain
走在路上的菜鸟16 小时前
Android学Dart学习笔记第十三节 注解
android·笔记·学习·flutter
hhy_smile17 小时前
Android 与 java 设计笔记
android·java·笔记