Hive 实操案例二:统计 Top10 视频类别热度

一、数据表结构

视频表 t_video

字段 注释 描述
videoId 视频唯一 id(String) 11 位字符串
uploader 视频上传者(String) 上传视频的用户名 String
age 视频年龄(int) 视频在平台上的整数天
category 视频类别(Array<String> 上传视频指定的视频分类
length 视频长度(Int) 整形数字标识的视频长度
views 观看次数(Int) 视频被浏览的次数
rate 视频评分(Double) 满分 5 分
Ratings 流量(Int) 视频的流量,整型数字
conments 评论数(Int) 一个视频的整数评论数
relatedId 相关视频 id(Array<String> 相关视频的 id,最多 20 个

二、具体实现

sql 复制代码
-- 统计视频类别热度(视频个数) Top10
/**
 思路:
   1.由于 category 字段类型为 Array<String>,为便于统计先使用爆炸函数 explode 将字段值扁平化
   2.按照扁平化后的视频类别值分组聚合统计个数
   3.使用排序窗口函数对所有视频类别按个数进行降序编号
   4.使用 where 子句筛选 top10 数据
*/
SELECT 
	rn,
	cg,
	`views`
FROM 
(
	SELECT 
		cg,
		`views`,
		DENSE_RANK() over(ORDER by `views` DESC) as rn 
	FROM 
	(
		SELECT 
			cg,
			sum(1) as `views` 
		FROM t_video
		lateral view explode(category) adtable as cg
		group by cg
	) t1
) t2
WHERE rn<=10;
相关推荐
wzl202612132 小时前
企微私域工具免费版vs付费版:数据统计API差异与自动化报表脚本实现
大数据·自动化·企业微信
key_3_feng3 小时前
MCP协议:解锁AI模型与外部世界的高效协作
大数据·人工智能·mcp
科技小花3 小时前
AI重塑与全球合规:2026年主流数据治理平台差异化解析
大数据·运维·人工智能·数据治理
Matrix703 小时前
Kafka 单节点测试环境部署实战
大数据·kafka
程序消消乐3 小时前
第一章:Claude Code 记忆系统——架构总览与四种记忆类型
大数据·架构·agent·claude code
小小AK3 小时前
旺店通与轻易云集成平台的无缝数据对接方案
大数据
QYR_Jodie4 小时前
从科研投入与技术迭代驱动到稳增扩容:全球小角度X射线散射仪2025年0.7亿,2032年达0.85亿,2026-2032年CAGR3.0%
大数据·人工智能
蓝眸少年CY5 小时前
Hbase - 入门到实战
大数据·数据库·hbase
heimeiyingwang5 小时前
【架构实战】ETL架构演进:从批处理到实时流处理
数据仓库·架构·etl
拾光向日葵5 小时前
南京林业大学2026年硕士研究生跨门类调剂政策详解
大数据·人工智能·物联网