hive窗口函数实现组内求和、累加、排序、计数

问题描述:

group by实现的分组聚合函数与元数据表对比难以实现后续进一步的数据加工处理

窗口函数更容易实现在元数据表上打分组聚合的补丁

窗口函数的一般公式:

sql 复制代码
<窗口函数> over (partition by <用于分组的列名> order by <用于排序的列名> [rows between ?? and ???])

函数的位置可以放如下函数:

1.rank() ->如果有并列名次的行,会占用下一名次的位置。比如正常排名是1,2,3,4,但是现在前3名是并列的名次,结果是:1,1,1,4

2.dense_rank() ->如果有并列名次的行,不占用下一名次的位置。比如正常排名是1,2,3,4,但是现在前3名是并列的名次,结果是:1,1,1,2。

3.row_number() ->不考虑并列名次的情况。比如前3名是并列的名次,排名是正常的1,2,3,4。

4.lag(col,n,default_val):获取往前第n行数据,col是列名,n是往上的行数,当第n行为null的时候取default_val

5.LEAD(col,n, default_val):往后第n行数据,col是列名,n是往下的行数,当第n行为null的时候取default_val

6.聚合函数(sum求和,平均、计数、最大最小值)作为窗口函数,可以在每一行的数据里直观的看到,截止到本行数据,统计数据是多少(最大值、最小值等)。同时可以看出每一行数据,对整体统计数据的影响。

自行体会,真嘟很好用

对比python也不算差,之后会上实际案例

相关推荐
zhangjin12223 小时前
kettle从入门到精通 第八十七课 ETL之kettle kettle文件上传
数据仓库·etl·kettle 文件上传·kettle实战·kettle 教程
计算机学姐4 小时前
基于Hadoop的NBA球员大数据分析及可视化系统
java·大数据·vue.js·hadoop·spring boot·数据挖掘·数据分析
IT毕设梦工厂4 小时前
大数据毕业设计选题推荐-网络电视剧收视率分析系统-Hive-Hadoop-Spark
大数据·hive·hadoop·spark·毕业设计·源码·课程设计
B站计算机毕业设计超人4 小时前
计算机毕业设计Hadoop+Spark知识图谱体育赛事推荐系统 体育赛事热度预测系统 体育赛事数据分析 体育赛事可视化 体育赛事大数据 大数据毕业设计
大数据·hadoop·爬虫·spark·知识图谱·数据可视化·推荐算法
喻师傅4 小时前
Hadoop FileSystem Shell 常用操作命令
大数据·hadoop·分布式·shell命令
B站计算机毕业设计超人5 小时前
计算机毕业设计Hadoop+PySpark深圳共享单车预测系统 PyHive 共享单车数据分析可视化大屏 共享单车爬虫 共享单车数据仓库 机器学习 深度学习
数据仓库·hive·hadoop·爬虫·机器学习·spark·数据可视化
搁浅mf丶8 小时前
Doris 2.x 安装及使用
数据仓库
计算机编程-吉哥9 小时前
计算机毕业设计 基于Hadoop的租房数据分析系统的设计与实现 Python+Django+Vue 前后端分离 附源码 讲解 文档
大数据·hadoop·python·毕业设计·毕业论文·计算机毕业设计选题·租房数据分析系统
sunxunyong9 小时前
Ranger集成CDH6.3.1详细步骤
hadoop
字节数据平台10 小时前
助力降本增效,ByteHouse打造新一代云原生数据仓库
数据仓库·云原生