Hive面试题-- 查询各类型专利 top10 申请人及专利申请数

在数据处理中,尤其是涉及到专利信息等复杂数据时,Hive 是一个强大的工具。本文将详细介绍如何使用 Hive 查询语句来获取各类型专利 top10 申请人以及他们对应的专利申请数,以下是基于给定的 t_patent_detail 表结构的分析和查询步骤。

建表语句如下:

sql 复制代码
create table t_patent_detail(
    patent_id string,
    patent_name string,
    patent_type string,
    aplly_date string,
    authorize_date string,
    apply_users string
);

INSERT INTO t_patent_detail (patent_id, patent_name, patent_type, aplly_date, authorize_date, apply_users)
VALUES
('CN201821413799.7', '一种用于合金板棒材的往复式感应加热设备', '发明创造', '2018-08-30', '2019-08-09', '朱春野'),
('CN201911153500.8', '转化DNA回收率的检测方法及引物', '发明创造', '2019-11-22', '2020-01-10', '陶启长;韦东'),
('CN202011144174.7', '一种经修饰荧光探针及其应用', '发明创造', '2020-10-23', '2020-11-20', '陶启长;韦东;余明伟'),
('CN201920792416.X', '适用于中型桌面仪器的隔离装置', '实用新型', '2019-05-29', '2020-04-17', '许亦琳;余明伟;杨华'),
('CN201920973176.3', '一种高性价离心管冻存盒', '实用新型', '2019-06-26', '2020-04-17', '许亦琳;余明伟;邬剑星;王敏生'),
('CN202110256789.4', '一种新型环保材料的制备方法', '发明创造', '2021-03-09', '2021-12-15', '李明'),
('CN202220345678.X', '便捷式电子设备支架', '实用新型', '2022-02-18', '2022-08-22', '张华'),
('CN202211123456.7', '智能物流配送系统及方法', '发明创造', '2022-09-16', '2023-02-28', '王强;赵晓'),
('CN202320456789.2', '多功能办公文具收纳盒', '实用新型', '2023-03-20', '2023-10-18', '孙悦;刘敏'),
('CN202310567890.1', '高效能源转换装置', '发明创造', '2023-04-12', '2023-11-09', '吴涛;周琳'),
('CN202410123456.8', '人工智能辅助教学方法', '发明创造', '2024-02-05', '2024-07-12', '郑宇;林悦'),
('CN202420234567.9', '可折叠户外遮阳伞', '实用新型', '2024-01-18', '2024-06-20', '陈晨;杨阳'),
('CN202120678901.2', '新型保温杯结构', '实用新型', '2021-04-06', '2021-10-25', '刘辉;张峰'),
('CN202210789012.3', '大数据分析处理平台', '发明创造', '2022-07-05', '2022-12-30', '马丽;王鹏'),
('CN202320890123.4', '创意灯具设计', '实用新型', '2023-06-15', '2023-12-08', '赵丹;李华'),
('CN202110345678.5', '一种新型太阳能电池技术', '发明创造', '2021-03-30', '2021-11-18', '王力'),
('CN202220456789.X', '便携式空气净化器', '实用新型', '2022-03-15', '2022-09-25', '陈雪'),
('CN202211234567.8', '智能医疗诊断系统', '发明创造', '2022-10-12', '2023-03-20', '刘阳;张辉'),
('CN202320567890.3', '可调节电脑桌', '实用新型', '2023-04-05', '2023-11-12', '李丽;王浩'),
('CN202310678901.4', '高效农业灌溉方法', '发明创造', '2023-05-10', '2023-12-15', '赵刚;孙强'),
('CN202410234567.9', '虚拟现实交互技术', '发明创造', '2024-03-08', '2024-08-20', '周明;吴俊'),
('CN202420345678.0', '防水运动手表', '实用新型', '2024-02-12', '2024-07-25', '林晓;郑凯'),
('CN202120789012.5', '新型雨伞设计', '实用新型', '2021-04-28', '2021-11-05', '杨波;刘悦'),
('CN202210890123.6', '区块链数据安全技术', '发明创造', '2022-07-25', '2022-12-12', '马宁;赵亮'),
('CN202320901234.7', '创意家居装饰品', '实用新型', '2023-07-02', '2023-12-20', '孙琳;李阳'),
('CN202411167890.1', '新型合金材料制备工艺', '发明创造', '2024-10-05', '2025-01-10', '朱春野;陶启长'),
('CN202420278901.X', '便捷式电子秤设计', '实用新型', '2024-02-20', '2024-08-05', '许亦琳;余明伟'),
('CN202411289012.2', '智能数据分析方法', '发明创造', '2024-11-12', '2025-02-25', '韦东;余明伟'),
('CN202420390123.X', '创意手机支架', '实用新型', '2024-03-18', '2024-09-20', '杨华;王敏生'),
('CN202411390124.3', '高效能源转化技术', '发明创造', '2024-11-25', '2025-03-15', '邬剑星;陶启长'),
('CN202420490125.4', '可折叠收纳袋', '实用新型', '2024-04-12', '2024-10-25', '刘敏;许亦琳'),
('CN202411490126.5', '智能物流管理系统', '发明创造', '2024-12-02', '2025-04-10', '王强;韦东'),
('CN202420590127.6', '多功能钥匙扣设计', '实用新型', '2024-05-08', '2024-11-15', '赵晓;余明伟'),
('CN202411590128.7', '新型环保材料研发', '发明创造', '2024-12-10', '2025-04-25', '李明;陶启长'),
('CN202420690129.8', '便携式手电筒', '实用新型', '2024-06-05', '2024-12-05', '张华;许亦琳'),
('CN202411690130.1', '智能医疗辅助设备', '发明创造', '2024-12-18', '2025-05-10', '王强;韦东;余明伟'),
('CN202420790131.2', '创意书签设计', '实用新型', '2024-07-02', '2025-01-20', '孙悦;刘敏'),
('CN202411790132.3', '高效农业生产技术', '发明创造', '2024-12-25', '2025-05-25', '吴涛;周琳'),
('CN202420890133.4', '可折叠扇子设计', '实用新型', '2024-07-20', '2025-02-15', '郑宇;林悦'),
('CN202411890134.5', '新型能源存储装置', '发明创造', '2024-12-30', '2025-06-10', '陈晨;杨阳'),
('CN202420990135.6', '便携式雨伞', '实用新型', '2024-08-15', '2025-03-05', '刘辉;张峰'),
('CN202411990136.7', '智能交通信号系统', '发明创造', '2025-01-05', '2025-06-25', '马丽;王鹏'),
('CN202421090137.8', '多功能文具盒设计', '实用新型', '2024-09-02', '2025-04-05', '赵丹;李华'),
('CN202412090138.9', '新型大数据处理技术', '发明创造', '2025-01-15', '2025-07-10', '王力;陈雪'),
('CN202421190139.X', '便携式水杯设计', '实用新型', '2024-09-20', '2025-04-20', '刘阳;张辉'),
('CN202412190140.2', '智能物流配送优化技术', '发明创造', '2025-01-25', '2025-07-25', '李丽;王浩'),
('CN202421290141.3', '创意笔记本设计', '实用新型', '2024-10-08', '2025-05-10', '赵刚;孙强'),
('CN202412290142.4', '高效能源利用技术', '发明创造', '2025-02-05', '2025-08-10', '周明;吴俊'),
('CN202421390143.5', '便携式餐具设计', '实用新型', '2024-10-25', '2025-05-25', '林晓;郑凯'),
('CN202412390144.6', '新型人工智能算法', '发明创造', '2025-02-15', '2025-08-25', '杨波;刘悦'),
('CN202421490145.7', '创意手机挂件设计', '实用新型', '2024-11-08', '2025-06-15', '马宁;赵亮'),
('CN202412490146.8', '大数据安全防护技术', '发明创造', '2025-02-25', '2025-09-10', '孙琳;李阳'),
('CN202421590147.9', '便携式化妆镜设计', '实用新型', '2024-11-20', '2025-06-20', '张宇;王丽'),
('CN202412590148.X', '智能交通预测技术', '发明创造', '2025-03-05', '2025-09-25', '李明;王强'),
('CN202421690149.0', '多功能钱包设计', '实用新型', '2024-12-05', '2025-07-10', '陈刚;赵勇'),
('CN202412690150.3', '高效农业灌溉优化技术', '发明创造', '2025-03-15', '2025-10-10', '周伟;吴昊'),
('CN202421790151.4', '创意钥匙链设计', '实用新型', '2024-12-20', '2025-07-20', '林悦;郑佳'),
('CN202412790152.5', '新型环保能源技术', '发明创造', '2025-03-25', '2025-10-25', '杨辉;刘梅'),
('CN202421890153.6', '便携式小风扇设计', '实用新型', '2025-01-02', '2025-08-05', '马俊;王涛'),
('CN202412890154.7', '智能医疗诊断优化技术', '发明创造', '2025-04-05', '2025-11-10', '孙丽;李华'),
('CN202421990155.8', '创意笔袋设计', '实用新型', '2025-01-20', '2025-08-20', '张勇;王辉'),
('CN202412990156.9', '新型材料应用技术', '发明创造', '2025-04-15', '2025-11-25', '陈燕;刘芳'),
('CN202422090157.X', '便携式充电宝设计', '实用新型', '2025-02-10', '2025-09-15', '李明;刘刚'),
('CN202413090158.0', '智能安防预警技术', '发明创造', '2025-04-25', '2025-12-10', '王芳;陈强'),
('CN202422190159.1', '创意手机壳设计', '实用新型', '2025-03-05', '2025-10-05', '赵斌;许亦琳'),
('CN202413190160.3', '高效能源回收技术', '发明创造', '2025-05-05', '2026-01-10', '朱春野;陶启长'),
('CN202422290161.4', '便携式耳机设计', '实用新型', '2025-03-20', '2025-10-20', '韦东;余明伟'),
('CN202413290162.5', '智能数据分析优化技术', '发明创造', '2025-05-20', '2026-01-25', '杨华;王敏生'),
('CN202422390163.6', '创意书签夹设计', '实用新型', '2025-04-05', '2025-11-15', '邬剑星;陶启长'),
('CN202413390164.7', '新型环保工艺优化技术', '发明创造', '2025-05-30', '2026-02-10', '刘敏;许亦琳'),
('CN202422490165.8', '便携式小台灯设计', '实用新型', '2025-04-25', '2025-12-05', '王强;韦东'),
('CN202413490166.9', '智能物流管理优化技术', '发明创造', '2025-06-15', '2026-02-25', '赵晓;余明伟'),
('CN202422590167.X', '创意笔记本封面设计', '实用新型', '2025-05-15', '2025-12-20', '李明;陶启长'),
('CN202413590168.0', '新型能源存储优化技术', '发明创造', '2025-06-30', '2026-03-10', '张华;许亦琳'),
('CN202422690169.1', '便携式梳子设计', '实用新型', '2025-06-10', '2026-01-05', '王强;韦东;余明伟'),
('CN202413690170.4', '智能医疗辅助设备优化技术', '发明创造', '2025-07-15', '2026-03-25', '孙悦;刘敏'),
('CN202422790171.5', '创意手机支架改良设计', '实用新型', '2025-07-05', '2026-02-05', '吴涛;周琳'),
('CN202413790172.6', '高效农业生产优化技术', '发明创造', '2025-08-05', '2026-04-10', '郑宇;林悦'),
('CN202422890173.7', '可折叠购物袋设计', '实用新型', '2025-08-15', '2026-02-20', '陈晨;杨阳'),
('CN202413890174.7', '新型大数据处理优化技术', '发明创造', '2025-08-30', '2026-04-25', '刘辉;张峰'),
('CN202422990175.8', '便携式餐具套装设计', '实用新型', '2025-09-10', '2026-03-15', '马丽;王鹏'),
('CN202413990176.8', '智能交通信号系统优化技术', '发明创造', '2025-09-25', '2026-05-10', '赵丹;李华'),
('CN202423090177.9', '多功能文具盒改良设计', '实用新型', '2025-10-05', '2026-04-05', '王力;陈雪'),
('CN202414090178.9', '新型大数据分析技术', '发明创造', '2025-10-20', '2026-05-25', '刘阳;张辉'),
('CN202423190179.X', '便携式水杯改良设计', '实用新型', '2025-11-05', '2026-04-20', '李丽;王浩'),
('CN202414190180.2', '智能物流配送精准技术', '发明创造', '2025-11-20', '2026-06-10', '赵刚;孙强'),
('CN202423290181.3', '创意笔记本内页设计', '实用新型', '2025-12-05', '2026-05-15', '周明;吴俊'),
('CN202414290182.4', '高效能源利用优化技术', '发明创造', '2025-12-20', '2026-06-25', '林晓;郑凯'),
('CN202423390183.5', '便携式化妆镜改良设计', '实用新型', '2026-01-05', '2026-06-10', '杨波;刘悦'),
('CN202414390184.6', '新型人工智能应用技术', '发明创造', '2026-01-20', '2026-07-10', '马宁;赵亮'),
('CN202423490185.7', '创意手机挂件改良设计', '实用新型', '2026-02-05', '2026-07-20', '孙琳;李阳'),
('CN202414490186.8', '大数据安全防护优化技术', '发明创造', '2026-02-20', '2026-08-10', '张宇;王丽'),
('CN202423590187.9', '便携式小风扇改良设计', '实用新型', '2026-03-05', '2026-08-20', '李明;王强');

一、表结构分析

我们有一个名为 t_patent_detail 的专利明细表,它包含以下重要字段:

  • patent_id:专利号,用于唯一标识每个专利。
  • patent_name:专利名称,清晰地展示专利的主题。
  • patent_type:专利类型,区分不同种类的专利。
  • aplly_date:申请时间,记录专利申请的日期。
  • authorize_date:授权时间,表明专利获得授权的时间点。
  • apply_users:申请人,值得注意的是,同一个专利可以有 1 到多个申请人,多人之间按分号隔开,此表记录数约 1 万条。

二、查询思路

为了得到各类型专利 top10 申请人和专利申请数,我们采取以下步骤:

(一)处理申请人字段

首先,由于申请人字段中可能存在多个申请人(以分号分隔),我们需要将这个字段 "炸裂"(使用 explode 函数)。通过 lateral view explode(split(apply_users,';')) t1 as coll,我们创建了一个临时的视图,将每个申请人单独提取出来,并赋予一个新的列名 apply_name。这样,原本一行可能对应多个申请人的数据,会被扩展成多行,每行对应一个申请人。

(二)分组计数和排名

在处理好申请人字段后,我们对新生成的数据集进行分组。使用 group by t1.apply_name 按照申请人进行分组,然后使用 count(*) 函数计算每个申请人的专利申请数。接着,使用 rank() over(order by count(*) desc) 函数对申请人按照专利申请数进行降序排名。

三、Hive 查询语句

以下是完整的 Hive 查询语句:

sql 复制代码
select t1.apply_name `申请人`,
       count(*) `专利申请数`,
       rank() over(order by count(*) desc) `专利数排名`
from (
    --先将申请人字段炸裂
    select d.*, t1.coll `apply_name`
    from t_patent_detail d
    lateral view explode(split(apply_users,';')) t1 as coll
) t1
group by t1.apply_name limit 0,10; --按照申请人分组

查询结果如下:

相关推荐
lucky_syq36 分钟前
Hive SQL和Spark SQL的区别?
hive·sql·spark
NiNg_1_2341 小时前
Hadoop中MapReduce过程中Shuffle过程实现自定义排序
大数据·hadoop·mapreduce
lucky_syq2 小时前
Spark和Hadoop之间的区别
大数据·hadoop·spark
武子康21 小时前
大数据-257 离线数仓 - 数据质量监控 监控方法 Griffin架构
java·大数据·数据仓库·hive·hadoop·后端
莹雨潇潇21 小时前
Hadoop完全分布式环境部署
大数据·hadoop·分布式
学计算机的睿智大学生1 天前
Hadoop集群搭建
大数据·hadoop·分布式
ProtonBase1 天前
如何从 0 到 1 ,打造全新一代分布式数据架构
java·网络·数据库·数据仓库·分布式·云原生·架构
清平乐的技术专栏2 天前
Hive SQL 查询所有函数
hive·hadoop·sql