hive 统计各项目下排名前5的问题种类

实现指定某项目下的数据效果图如下所示:

其中 ABCDE 为前5名的问题种类,其中A问题有124个(出现了124次)

数据说明:

  • 整个数据集 包含很多项目
  • 一个项目 包含很多问题
  • 一个问题 选项 可认为是 类别值,所有出现的问题都落在这些类别范围内

需求梳理:前5名的排名依据于 问题数量,而不是按照某字段排序,而问题数量是按照 项目 + 问题 分组后统计的数量。

分步处理:

1.先分组统计,查询数据(屏蔽真实表和字段,但逻辑不变)

sql 复制代码
select 
   项目
   , 问题
   ,count(*) as num
 from 表
 GROUP BY 项目, 问题

结果:

可以看到上述部分截图中 有3个项目,分别是 0001/0009/0002,

其中 前2行和后2行都是 项目 0001的数据,表示它下面的4个问题种类 以及 统计数量。

2.把上述结果作为一张逻辑表,按照其中的数量字段 使用开窗函数 降序排序:

sql 复制代码
SELECT * FROM 
(
    SELECT 项目, 问题, 数量
    ,row_number() over(partition BY 项目 order by 数量 desc) as rn 
    FROM 
    (
    select 
            项目
            , 问题
            ,count(*) as 数量
          from 表名
          GROUP BY 项目, 问题
    ) x
) x8c

结果如下所示:这是项目 0001 下排名前10的 问题 + 数量

项目0004的数据。。

到这一步,我们得到了每个项目下 的 所有问题,并且 问题按 数量倒序排名,还差最后一步:每个项目,只取排名前5的问题数据。

  1. 其实,我们只需要在上一步的sql 中 加上 where 条件过滤即可:
    where 排名 <= 5 FYI: 根据业务相应调整。
sql 复制代码
SELECT * FROM 
(
    SELECT 项目, 问题, 数量
    ,row_number() over(partition BY 项目 order by 数量 desc) as rn 
    FROM 
    (
    select 
            项目
            , 问题
            ,count(*) as 数量
          from 表名
          GROUP BY 项目, 问题
    ) x
) x8c
where rn <= 5
相关推荐
佐伊234 小时前
SQL优化剧场:当Hive/MaxCompute遇上数据倾斜的十二种剧情
hive·sql优化·maxcompute·数据倾斜
Amber勇闯数分4 小时前
【Hive】基于物品协同过滤 [ ItemCF ] 推荐课程-余弦相似度计算
大数据·数据仓库·hive·hadoop·矩阵
努力有什么不好4 小时前
SparkSQL如何查询外部hive数据
数据仓库·hive·hadoop
yumgpkpm4 小时前
华为昇腾300T A2训练、微调Qwen过程,带保姆式命令,麒麟操作系统+鲲鹏CPU
hive·hadoop·华为·flink·spark·kafka·hbase
無森~5 小时前
HBase与MR、Hive整合
hive·hbase·mr
Gain_chance2 天前
32-学习笔记尚硅谷数仓搭建-DWD层首日数据装载脚本及每日数据装载脚本
大数据·数据仓库·hive·笔记·学习
Gain_chance2 天前
29-学习笔记尚硅谷数仓搭建-DWD层交易域下单事务事实表和交易域支付成功事务事实表
数据仓库·hive·笔记·学习·datagrip
TTBIGDATA2 天前
【Ranger】Ambari开启Kerberos 后 ,Ranger 中 Hive 策略里,Resource lookup fail 线程池超时优化
大数据·数据仓库·hive·hadoop·ambari·hdp·ranger
B站计算机毕业设计超人4 天前
计算机毕业设计hadoop+spark+hive在线教育可视化 课程推荐系统 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·人工智能·hive·hadoop·scrapy·spark·课程设计
B站计算机毕业设计超人4 天前
计算机毕业设计PySpark+Hive+Django小红书评论情感分析 小红书笔记可视化 小红书舆情分析预测系统 大数据毕业设计(源码+LW+PPT+讲解)
大数据·人工智能·hive·爬虫·python·spark·课程设计