hive 统计各项目下排名前5的问题种类

实现指定某项目下的数据效果图如下所示:

其中 ABCDE 为前5名的问题种类,其中A问题有124个(出现了124次)

数据说明:

  • 整个数据集 包含很多项目
  • 一个项目 包含很多问题
  • 一个问题 选项 可认为是 类别值,所有出现的问题都落在这些类别范围内

需求梳理:前5名的排名依据于 问题数量,而不是按照某字段排序,而问题数量是按照 项目 + 问题 分组后统计的数量。

分步处理:

1.先分组统计,查询数据(屏蔽真实表和字段,但逻辑不变)

sql 复制代码
select 
   项目
   , 问题
   ,count(*) as num
 from 表
 GROUP BY 项目, 问题

结果:

可以看到上述部分截图中 有3个项目,分别是 0001/0009/0002,

其中 前2行和后2行都是 项目 0001的数据,表示它下面的4个问题种类 以及 统计数量。

2.把上述结果作为一张逻辑表,按照其中的数量字段 使用开窗函数 降序排序:

sql 复制代码
SELECT * FROM 
(
    SELECT 项目, 问题, 数量
    ,row_number() over(partition BY 项目 order by 数量 desc) as rn 
    FROM 
    (
    select 
            项目
            , 问题
            ,count(*) as 数量
          from 表名
          GROUP BY 项目, 问题
    ) x
) x8c

结果如下所示:这是项目 0001 下排名前10的 问题 + 数量

项目0004的数据。。

到这一步,我们得到了每个项目下 的 所有问题,并且 问题按 数量倒序排名,还差最后一步:每个项目,只取排名前5的问题数据。

  1. 其实,我们只需要在上一步的sql 中 加上 where 条件过滤即可:
    where 排名 <= 5 FYI: 根据业务相应调整。
sql 复制代码
SELECT * FROM 
(
    SELECT 项目, 问题, 数量
    ,row_number() over(partition BY 项目 order by 数量 desc) as rn 
    FROM 
    (
    select 
            项目
            , 问题
            ,count(*) as 数量
          from 表名
          GROUP BY 项目, 问题
    ) x
) x8c
where rn <= 5
相关推荐
多多*2 小时前
Java反射 八股版
java·开发语言·hive·python·sql·log4j·mybatis
yyf9601265 小时前
hiveserver2与beeline进行远程连接hive配置及遇到的问题
数据仓库·hive
yyf9601265 小时前
hive在配置文件中添加了hive.metastore.uris之后进入hive输入命令报错
hive
jiedaodezhuti6 小时前
hive两个表不同数据类型字段关联引发的数据倾斜
数据仓库·hive·hadoop
IvanCodes6 小时前
五、Hive表类型、分区及数据加载
大数据·数据仓库·hive
静听山水1 天前
Hive JOIN 优化策略详解
hive
Microsoft Word1 天前
数据仓库Hive
数据仓库·hive·hadoop
IvanCodes1 天前
四、Hive DDL表定义、数据类型、SerDe 与分隔符核心
大数据·hive·hadoop
IvanCodes1 天前
三、Hive DDL数据库操作
大数据·数据库·hive·hadoop
IT成长日记2 天前
【Hive入门】Hive数据导入与导出:批量操作与HDFS数据迁移完全指南
hive·hadoop·hdfs·数据导入与导出·load data