一、数据表结构
视频表 t_video
字段 | 注释 | 描述 |
---|---|---|
videoId | 视频唯一 id(String) | 11 位字符串 |
uploader | 视频上传者(String) | 上传视频的用户名 String |
age | 视频年龄(int) | 视频在平台上的整数天 |
category | 视频类别(Array<String> ) |
上传视频指定的视频分类 |
length | 视频长度(Int) | 整形数字标识的视频长度 |
views | 观看次数(Int) | 视频被浏览的次数 |
rate | 视频评分(Double) | 满分 5 分 |
Ratings | 流量(Int) | 视频的流量,整型数字 |
conments | 评论数(Int) | 一个视频的整数评论数 |
relatedId | 相关视频 id(Array<String> ) |
相关视频的 id,最多 20 个 |
二、具体实现
sql
-- 统计视频类别热度(视频个数) Top10
/**
思路:
1.由于 category 字段类型为 Array<String>,为便于统计先使用爆炸函数 explode 将字段值扁平化
2.按照扁平化后的视频类别值分组聚合统计个数
3.使用排序窗口函数对所有视频类别按个数进行降序编号
4.使用 where 子句筛选 top10 数据
*/
SELECT
rn,
cg,
`views`
FROM
(
SELECT
cg,
`views`,
DENSE_RANK() over(ORDER by `views` DESC) as rn
FROM
(
SELECT
cg,
sum(1) as `views`
FROM t_video
lateral view explode(category) adtable as cg
group by cg
) t1
) t2
WHERE rn<=10;