HiveSql中的函数家族(二)

一、窗口函数

1、什么是窗口函数

在 SQL 中,窗口函数(Window Functions)是一种特殊的函数,它允许在查询结果集的特定窗口(通常是一组行)上执行聚合、分析和计算操作,而无需聚合整个结果集。窗口函数可以用来解决许多复杂的数据分析问题,例如计算排名、累积总数、移动平均值等。窗口函数通常与 OVER 子句一起使用,该子句用于定义窗口的大小和位置。

窗口函数的一般语法结构如下:

sql 复制代码
<窗口函数>([参数]) OVER (
    [PARTITION BY 列1, 列2, ...]
    [ORDER BY 列3 [ASC|DESC]]
    [ROWS | RANGE 关键字]
    [窗口范围或行数定义]
)
  • <窗口函数> 是要执行的窗口函数,例如 SUM、AVG、ROW_NUMBER 等。
  • PARTITION BY 子句可选,用于对结果集进行分区,将数据划分为不同的分组。
  • ORDER BY 子句可选,用于对每个分区内的行进行排序。
  • ROWSRANGE 关键字指定窗口的类型,ROWS 表示窗口以行数为单位,RANGE 表示窗口以值范围为单位。
  • 窗口范围或行数定义用于指定窗口的大小和位置,例如 ROWS BETWEEN 3 PRECEDING AND 1 FOLLOWING 表示窗口包括当前行及其前面的三行和后面的一行。

2、常用的窗口函数

  1. ROW_NUMBER():为结果集中的每一行分配一个唯一的数字序号。

    语法格式:

    sql 复制代码
    ROW_NUMBER() OVER (ORDER BY 列1 [ASC|DESC])
  2. RANK():为结果集中的每一行分配一个排名,如果有相同的值,则会跳过相同的排名。

    语法格式:

    sql 复制代码
    RANK() OVER (ORDER BY 列1 [ASC|DESC])
  3. DENSE_RANK():为结果集中的每一行分配一个密集排名,如果有相同的值,则仍然连续分配排名。

    语法格式:

    sql 复制代码
    DENSE_RANK() OVER (ORDER BY 列1 [ASC|DESC])
  4. SUM():计算指定列的总和,可以在窗口内计算。

    语法格式:

    sql 复制代码
    SUM(列1) OVER (PARTITION BY 列2 ORDER BY 列3 [ASC|DESC])
  5. AVG():计算指定列的平均值,可以在窗口内计算。

    语法格式:

    sql 复制代码
    AVG(列1) OVER (PARTITION BY 列2 ORDER BY 列3 [ASC|DESC])
  6. LEAD():获取结果集中当前行后面的指定行数的值。

    语法格式:

    sql 复制代码
    LEAD(列1, offset, default_value) OVER (ORDER BY 列2 [ASC|DESC])
  7. LAG():获取结果集中当前行前面的指定行数的值。

    语法格式:

    sql 复制代码
    LAG(列1, offset, default_value) OVER (ORDER BY 列2 [ASC|DESC])
  8. FIRST_VALUE():获取结果集中指定列的第一个值。

    语法格式:

    sql 复制代码
    FIRST_VALUE(列1) OVER (ORDER BY 列2 [ASC|DESC])
  9. LAST_VALUE():获取结果集中指定列的最后一个值。

    语法格式:

    sql 复制代码
    LAST_VALUE(列1) OVER (ORDER BY 列2 [ASC|DESC] ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING)
  10. COUNT():计算指定列的行数,可以在窗口内计算。

    语法格式:

    sql 复制代码
    COUNT(列1) OVER (PARTITION BY 列2 ORDER BY 列3 [ASC|DESC])
  11. MAX():获取指定列的最大值,可以在窗口内计算。

    语法格式:

    sql 复制代码
    MAX(列1) OVER (PARTITION BY 列2 ORDER BY 列3 [ASC|DESC])
  12. MIN():获取指定列的最小值,可以在窗口内计算。

    语法格式:

    sql 复制代码
    Min(列1) OVER (PARTITION BY 列2 ORDER BY 列3 [ASC|DESC])
  13. NTILE():将结果集分成指定数量的桶,并为每个桶分配一个编号。

    语法格式:

    sql 复制代码
    NTILE(number_of_buckets) OVER (ORDER BY 列1 [ASC|DESC])
  14. PERCENT_RANK():计算结果集中每行的百分比排名。

    语法格式:

    sql 复制代码
    PERCENT_RANK() OVER (ORDER BY 列1 [ASC|DESC])
  15. CUME_DIST():计算结果集中每行的累积分布值。

    语法格式:

    sql 复制代码
    CUME_DIST() OVER (ORDER BY 列1 [ASC|DESC])
  16. ROW_NUMBER():为结果集中的每一行分配一个唯一的数字序号。

语法格式:

sql 复制代码
ROW_NUMBER() OVER (ORDER BY 列1 [ASC|DESC])

二、CTE语法

CTE语法类似子查询,可以将一个select语句计算的结果当成一个新的临时表使用。

sql 复制代码
-- 子查询,将子查询的结果当做表使用
select empno,ename from (
select * from emp) t1;
sql 复制代码
-- 基本用法
with 临时表名 as(查询语句)
select * from 临时表名

-- 多个计算结果保存
with tb1 as(查询语句),,
	tb2 as(查询语句 select * from tb1),
	tb3 as(查询语句)
	.....
select * from tb3 join tb2
sql 复制代码
with tb1 as(select * from emp)
select ename,sal from tb1;
相关推荐
桌面运维家2 分钟前
基于vDisk技术的Vol云桌面技术解析
数据库
放下华子我只抽RuiKe52 分钟前
FastAPI 全栈后端(八):部署与运维
运维·数据库·react.js·oracle·数据挖掘·前端框架·fastapi
J.P.August3 分钟前
Oracle RAC双活存储配置三个关键点
数据库·oracle
万岳科技程序员小金5 分钟前
SaaS还是源码部署?网校教育平台开发方案对比
大数据·在线教育系统源码·教育软件开发·教育小程序开发·教育网校平台搭建
弹简特9 分钟前
【Java项目-轻聊】10-实现会话管理模块
java·开发语言·数据库
yyuuuzz10 分钟前
游戏云服务器推荐的技术选择思路
大数据·运维·服务器·游戏·云计算·aws
阳明山水13 分钟前
自下而上 vs 自上而下 vs 最优组合预测策略解析
大数据·人工智能·深度学习·算法·机器学习
网管NO.125 分钟前
MySQL 8.0 JSON 操作 | 新增 / 查询 / 修改,适配新兴业务
数据库·mysql·json
lauo32 分钟前
当手机开始“编程”:荣耀Robot Phone的影像革命与ibbot青春版的AI“挖矿”之道
大数据·人工智能·chatgpt·智能手机·ai-native
大大大大晴天32 分钟前
Hudi技术内幕:Write Operations 深度解析
大数据