hive 统计各项目下排名前5的问题种类

csdnfanguyinheng2024-11-19 14:51

实现指定某项目下的数据效果图如下所示：

其中 ABCDE 为前5名的问题种类，其中A问题有124个（出现了124次）

数据说明：

整个数据集包含很多项目
一个项目包含很多问题
一个问题选项可认为是类别值，所有出现的问题都落在这些类别范围内

需求梳理：前5名的排名依据于问题数量，而不是按照某字段排序，而问题数量是按照项目 + 问题分组后统计的数量。

分步处理：

1.先分组统计，查询数据（屏蔽真实表和字段，但逻辑不变）

sql 复制代码

select 
   项目
   , 问题
   ,count(*) as num
 from 表
 GROUP BY 项目, 问题

结果：

可以看到上述部分截图中有3个项目，分别是 0001/0009/0002，

其中前2行和后2行都是项目 0001的数据，表示它下面的4个问题种类以及统计数量。

2.把上述结果作为一张逻辑表，按照其中的数量字段使用开窗函数降序排序：

sql 复制代码

SELECT * FROM 
(
    SELECT 项目, 问题, 数量
    ,row_number() over(partition BY 项目 order by 数量 desc) as rn 
    FROM 
    (
    select 
            项目
            , 问题
            ,count(*) as 数量
          from 表名
          GROUP BY 项目, 问题
    ) x
) x8c

结果如下所示：这是项目 0001 下排名前10的问题 + 数量

项目0004的数据。。

到这一步，我们得到了每个项目下的所有问题，并且问题按数量倒序排名，还差最后一步：每个项目，只取排名前5的问题数据。

其实，我们只需要在上一步的sql 中加上 where 条件过滤即可：
where 排名 <= 5 FYI: 根据业务相应调整。

sql 复制代码

SELECT * FROM 
(
    SELECT 项目, 问题, 数量
    ,row_number() over(partition BY 项目 order by 数量 desc) as rn 
    FROM 
    (
    select 
            项目
            , 问题
            ,count(*) as 数量
          from 表名
          GROUP BY 项目, 问题
    ) x
) x8c
where rn <= 5