Spark-SQL核心编程2

路径问题

相对路径与绝对路径:建议使用绝对路径,避免复制粘贴导致的错误,必要时将斜杠改为双反斜杠。

数据处理与展示

SQL 风格语法:创建临时视图并使用 SQL 风格语法查询数据。

DSL 风格语法 :使用 DSL 风格语法查询 user 表中的 user nameage 列。

http://【Spark-SQL核心编程 - CSDN App】https://blog.csdn.net/2401_84627304/article/details/147227309?sharetype=blog&shareId=147227309&sharerefer=APP&sharesource=2401_84627304&sharefrom=link

(我的博客文章 ++spark-SQL核心编程++ 目录中能找到 )

利用IDEA开发Spark-SQL

导入的包

下面的代码 (

复制代码
val df : DataFrame后面的地址是自己放的文档的地址

运行结果:

自定义函数:

UDF

UDAF(自定义聚合函数)

强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数, 如 count(),countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。Spark3.0之前我们使用的是UserDefinedAggregateFunction作为自定义聚合函数,从 Spark3.0 版本后可以统一采用强类型聚合函数 Aggregator

实验需求:计算平均工资

实现方式一:RDD

RDD 实现:通过 RDD 进行薪资数据的映射和聚合,计算平均工资。

case (name, salary) => {
(salary, 1)
}

这个代码是为了弱化没有关系的东西,比如这个平均薪资中名字不重要

实现方式二:弱类型 UDAF 实现

通过创建类和函数,封装并调用自定义聚合函数,计算平均工资。

复制代码
classMyAverageUDAF extendsUserDefinedAggregateFunction{

  definputSchema: StructType =

    StructType(Array(StructField("salary",IntegerType)))

  //聚合函数缓冲区中值的数据类型(salary,count)defbufferSchema: StructType = {



    StructType(Array(StructField("sum",LongType),StructField("count",LongType)))

  }

  //函数返回值的数据类型defdataType: DataType = DoubleType

  //稳定性:对于相同的输入是否一直返回相同的输出。defdeterministic: Boolean = true//函数缓冲区初始化definitialize(buffer: MutableAggregationBuffer): Unit = {

    //存薪资的总和buffer(0) = 0L

    //存薪资的个数buffer(1) = 0L

  }

  //更新缓冲区中的数据defupdate(buffer: MutableAggregationBuffer,input: Row): Unit = {

    if(!input.isNullAt(0)) {

      buffer(0) = buffer.getLong(0) + input.getInt(0)

      buffer(1) = buffer.getLong(1) + 1

    }

  }

  //合并缓冲区defmerge(buffer1: MutableAggregationBuffer,buffer2: Row): Unit = {

    buffer1(0) = buffer1.getLong(0) + buffer2.getLong(0)

    buffer1(1) = buffer1.getLong(1) + buffer2.getLong(1)

  }

  //计算最终结果defevaluate(buffer: Row): Double = buffer.getLong(0).toDouble /

    buffer.getLong(1)

}
复制代码
valsparkconf: SparkConf = newSparkConf().setAppName("app").setMaster("local\[\*\]")

valspark:SparkSession = SparkSession.builder().config(conf).getOrCreate()



importspark.implicits._

valres :RDD[(String,Int)]= spark.sparkContext.makeRDD(List(("zhangsan", 20), ("lisi", 30), ("wangwu",40)))



valdf :DataFrame = res.toDF("name","salary")

df.createOrReplaceTempView("user")

varmyAverage = newMyAverageUDAF

//在spark中注册聚合函数spark.udf.register("avgSalary",myAverage)

spark.sql("select avgSalary(salary) from user").show()



//关闭连接spark.stop()

注意:

第一行带下划线的如果运用代码出现删除线,这个能用,只是提醒你有别的最新的法

实现方式三:强类型UDAF

相关推荐
代码匠心1 天前
从零开始学Flink:Flink SQL四大Join解析
大数据·flink·flink sql·大数据处理
武子康2 天前
大数据-242 离线数仓 - DataX 实战:MySQL 全量/增量导入 HDFS + Hive 分区(离线数仓 ODS
大数据·后端·apache hive
SelectDB3 天前
易车 × Apache Doris:构建湖仓一体新架构,加速 AI 业务融合实践
大数据·agent·mcp
武子康3 天前
大数据-241 离线数仓 - 实战:电商核心交易数据模型与 MySQL 源表设计(订单/商品/品类/店铺/支付)
大数据·后端·mysql
茶杯梦轩3 天前
从零起步学习RabbitMQ || 第三章:RabbitMQ的生产者、Broker、消费者如何保证消息不丢失(可靠性)详解
分布式·后端·面试
IvanCodes3 天前
一、消息队列理论基础与Kafka架构价值解析
大数据·后端·kafka
武子康4 天前
大数据-240 离线数仓 - 广告业务 Hive ADS 实战:DataX 将 HDFS 分区表导出到 MySQL
大数据·后端·apache hive
回家路上绕了弯5 天前
深入解析Agent Subagent架构:原理、协同逻辑与实战落地指南
分布式·后端
字节跳动数据平台5 天前
5000 字技术向拆解 | 火山引擎多模态数据湖如何释放模思智能的算法生产力
大数据
武子康5 天前
大数据-239 离线数仓 - 广告业务实战:Flume 导入日志到 HDFS,并完成 Hive ODS/DWD 分层加载
大数据·后端·apache hive