本节课课堂总结:

利用IDEA开发Spark-SQL:

1.创建子模块Spark-SQL,并添加依赖

<dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-sql_2.12</artifactId>

<version>3.0.0</version>

</dependency>

2.创建Spark-SQL的测试代码:

case class User(id:Int,name:String,age:Int)

object SparkSQLDemo {

def main(args: Array[String]): Unit = {

//创建上下文环境配置对象

val sparkConf = new SparkConf().setMaster("local[*]").setAppName("SQLDemo")

//创建SparkSession对象

val spark :SparkSession = SparkSession.builder().config(sparkConf).getOrCreate()

import spark.implicits._

//读取json文件

val df : DataFrame = spark.read.json("Spark-SQL/input/user.json")

df.show()

//SQL风格语法

df.createOrReplaceTempView("user")

spark.sql("select * from user").show

spark.sql("select avg(age) from user").show

//DSL风格语法

df.select("username","age").show()

//RDD=>DataFrame=>DataSet

//RDD

val rdd1 :RDD[(Int,String,Int)] = spark.sparkContext.makeRDD(

List((1,"zhangsan",30),(2,"lisi",40))

)

//DataFrame

val df1 :DataFrame = rdd1.toDF("id","name","age")

df1.show()

//DataSet

val ds1 :Dataset[User] = df1.as[User]

ds1.show()

//DataSet=>DataFrame=>RDD

val df2 =ds1.toDF()

df2.show()

val rdd2 :RDD[Row] = df2.rdd

rdd2.foreach(a=>println(a.getString(1)))

rdd1.map{

case (id,name,age)=>User(id,name,age)

}.toDS().show()

val rdd3 = ds1.rdd

rdd3.foreach(a=>println(a.age))

rdd3.foreach(a=>println(a.id))

rdd3.foreach(a=>println(a.name))

spark.stop()

}

}

自定义函数:

val sparkConf = new SparkConf().setMaster("local[*]").setAppName("SQLDemo")

//创建SparkSession对象

val spark :SparkSession = SparkSession.builder().config(sparkConf).getOrCreate()

import spark.implicits._

//读取json文件

val df : DataFrame = spark.read.json("Spark-SQL/input/user.json")

spark.udf.register("addName",(x:String)=>"Name:"+x)

df.createOrReplaceTempView("people")

spark.sql("select addName(username),age from people").show()

spark.stop()

UDAF(自定义聚合函数)

强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数, 如 count(),

countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。Spark3.0之前我们使用的是UserDefinedAggregateFunction作为自定义聚合函数,从 Spark3.0 版本后可以统一采用强类型聚合函数 Aggregator

实验需求:计算平均工资

实现方式一:RDD

val sparkconf: SparkConf = new SparkConf().setAppName("app").setMaster("local[*]")

val sc: SparkContext = new SparkContext(conf)

val resRDD: (Int, Int) = sc.makeRDD(List(("zhangsan", 20), ("lisi", 30), ("wangwu",40))).map {

case (name, salary) => {

(salary, 1)

}

}.reduce {

(t1, t2) => {

(t1._1 + t2._1, t1._2 + t2._2)

}

}

println(resRDD._1/resRDD._2)

// 关闭连接

sc.stop()

实现方式二:弱类型UDAF

class MyAverageUDAF extends UserDefinedAggregateFunction{

def inputSchema: StructType =

StructType(Array(StructField("salary",IntegerType)))

// 聚合函数缓冲区中值的数据类型(salary,count)

def bufferSchema: StructType = {

StructType(Array(StructField("sum",LongType),StructField("count",LongType)))

}

// 函数返回值的数据类型

def dataType: DataType = DoubleType

// 稳定性:对于相同的输入是否一直返回相同的输出。

def deterministic: Boolean = true

// 函数缓冲区初始化

def initialize(buffer: MutableAggregationBuffer): Unit = {

// 存薪资的总和

buffer(0) = 0L

// 存薪资的个数

buffer(1) = 0L

}

// 更新缓冲区中的数据

def update(buffer: MutableAggregationBuffer,input: Row): Unit = {

if (!input.isNullAt(0)) {

buffer(0) = buffer.getLong(0) + input.getInt(0)

buffer(1) = buffer.getLong(1) + 1

}

}

// 合并缓冲区

def merge(buffer1: MutableAggregationBuffer,buffer2: Row): Unit = {

buffer1(0) = buffer1.getLong(0) + buffer2.getLong(0)

buffer1(1) = buffer1.getLong(1) + buffer2.getLong(1)

}

// 计算最终结果

def evaluate(buffer: Row): Double = buffer.getLong(0).toDouble /

buffer.getLong(1)

}

val sparkconf: SparkConf = new SparkConf().setAppName("app").setMaster("local[*]")

val spark:SparkSession = SparkSession.builder().config(conf).getOrCreate()

import spark.implicits._

val res :RDD[(String,Int)]= spark.sparkContext.makeRDD(List(("zhangsan", 20), ("lisi", 30), ("wangwu",40)))

val df :DataFrame = res.toDF("name","salary")

df.createOrReplaceTempView("user")

var myAverage = new MyAverageUDAF

//在 spark 中注册聚合函数

spark.udf.register("avgSalary",myAverage)

spark.sql("select avgSalary(salary) from user").show()

// 关闭连接

spark.stop()

实现方式三:强类型UDAF

case class Buff(var sum:Long,var cnt:Long)

class MyAverageUDAF extends Aggregator[Long,Buff,Double]{

override def zero: Buff = Buff(0,0)

override def reduce(b: Buff, a: Long): Buff = {

b.sum += a

b.cnt += 1

b

}

override def merge(b1: Buff, b2: Buff): Buff = {

b1.sum += b2.sum

b1.cnt += b2.cnt

b1

}

override def finish(reduction: Buff): Double = {

reduction.sum.toDouble/reduction.cnt

}

override def bufferEncoder: Encoder[Buff] = Encoders.product

override def outputEncoder: Encoder[Double] = Encoders.scalaDouble

}

val sparkconf: SparkConf = new SparkConf().setAppName("app").setMaster("local[*]")

val spark:SparkSession = SparkSession.builder().config(conf).getOrCreate()

import spark.implicits._

val res :RDD[(String,Int)]= spark.sparkContext.makeRDD(List(("zhangsan", 20), ("lisi", 30), ("wangwu",40)))

val df :DataFrame = res.toDF("name","salary")

df.createOrReplaceTempView("user")

var myAverage = new MyAverageUDAF

//在 spark 中注册聚合函数

spark.udf.register("avgSalary",functions.udaf(myAverage))

spark.sql("select avgSalary(salary) from user").show()

// 关闭连接

spark.stop()

相关推荐
德思特7 小时前
德思特新品 | 双小区5G NR基站模拟器正式推出,支持从单点验证迈向网络级测试
经验分享·无线通信·射频微波
suuijbd8 小时前
某小厂Java开发面经
经验分享
jikemaoshiyanshi12 小时前
如何选择防护面罩?告别国内品牌单纯对比,回归工业呼吸防护体系本质
经验分享·健康医疗
W.W.H.12 小时前
嵌入式系统硬件接口全景图
经验分享·uart·iic·gpio·spi
怪兽软家12 小时前
EndNote 2025 (2025.3)中文版安装教程及下载
经验分享·生活
我不是懒洋洋13 小时前
布谷鸟过滤器:比布隆过滤器更优雅的判重方案
c语言·经验分享
一个人旅程~17 小时前
Win旧版或win10部分版本如何解除260字符长路径名限制?
linux·windows·经验分享·电脑
iEdHu17 小时前
LinuxDO | L站 | Linux.do邀请码2026最新获取方式【邀请链接每日分享】
linux·经验分享·其他·社交电子
wxl78122718 小时前
Hermes+Qwen3.6-35B本地离线全链路全自动开发React项目,完成cognee-ui从零开发+自动测试+自动修Bug闭环
人工智能·经验分享·自我提升·hermes agent
我不是懒洋洋18 小时前
【数据结构】二叉树OJ(单值二叉树、检查两棵树是否相同、对称二叉树、二叉树的前序遍历、另一颗树的子树)
c语言·数据结构·c++·经验分享·算法·leetcode·visual studio