Hive面试题-- 查询各类型专利 top10 申请人及专利申请数

在数据处理中,尤其是涉及到专利信息等复杂数据时,Hive 是一个强大的工具。本文将详细介绍如何使用 Hive 查询语句来获取各类型专利 top10 申请人以及他们对应的专利申请数,以下是基于给定的 t_patent_detail 表结构的分析和查询步骤。

建表语句如下:

sql 复制代码
create table t_patent_detail(
    patent_id string,
    patent_name string,
    patent_type string,
    aplly_date string,
    authorize_date string,
    apply_users string
);

INSERT INTO t_patent_detail (patent_id, patent_name, patent_type, aplly_date, authorize_date, apply_users)
VALUES
('CN201821413799.7', '一种用于合金板棒材的往复式感应加热设备', '发明创造', '2018-08-30', '2019-08-09', '朱春野'),
('CN201911153500.8', '转化DNA回收率的检测方法及引物', '发明创造', '2019-11-22', '2020-01-10', '陶启长;韦东'),
('CN202011144174.7', '一种经修饰荧光探针及其应用', '发明创造', '2020-10-23', '2020-11-20', '陶启长;韦东;余明伟'),
('CN201920792416.X', '适用于中型桌面仪器的隔离装置', '实用新型', '2019-05-29', '2020-04-17', '许亦琳;余明伟;杨华'),
('CN201920973176.3', '一种高性价离心管冻存盒', '实用新型', '2019-06-26', '2020-04-17', '许亦琳;余明伟;邬剑星;王敏生'),
('CN202110256789.4', '一种新型环保材料的制备方法', '发明创造', '2021-03-09', '2021-12-15', '李明'),
('CN202220345678.X', '便捷式电子设备支架', '实用新型', '2022-02-18', '2022-08-22', '张华'),
('CN202211123456.7', '智能物流配送系统及方法', '发明创造', '2022-09-16', '2023-02-28', '王强;赵晓'),
('CN202320456789.2', '多功能办公文具收纳盒', '实用新型', '2023-03-20', '2023-10-18', '孙悦;刘敏'),
('CN202310567890.1', '高效能源转换装置', '发明创造', '2023-04-12', '2023-11-09', '吴涛;周琳'),
('CN202410123456.8', '人工智能辅助教学方法', '发明创造', '2024-02-05', '2024-07-12', '郑宇;林悦'),
('CN202420234567.9', '可折叠户外遮阳伞', '实用新型', '2024-01-18', '2024-06-20', '陈晨;杨阳'),
('CN202120678901.2', '新型保温杯结构', '实用新型', '2021-04-06', '2021-10-25', '刘辉;张峰'),
('CN202210789012.3', '大数据分析处理平台', '发明创造', '2022-07-05', '2022-12-30', '马丽;王鹏'),
('CN202320890123.4', '创意灯具设计', '实用新型', '2023-06-15', '2023-12-08', '赵丹;李华'),
('CN202110345678.5', '一种新型太阳能电池技术', '发明创造', '2021-03-30', '2021-11-18', '王力'),
('CN202220456789.X', '便携式空气净化器', '实用新型', '2022-03-15', '2022-09-25', '陈雪'),
('CN202211234567.8', '智能医疗诊断系统', '发明创造', '2022-10-12', '2023-03-20', '刘阳;张辉'),
('CN202320567890.3', '可调节电脑桌', '实用新型', '2023-04-05', '2023-11-12', '李丽;王浩'),
('CN202310678901.4', '高效农业灌溉方法', '发明创造', '2023-05-10', '2023-12-15', '赵刚;孙强'),
('CN202410234567.9', '虚拟现实交互技术', '发明创造', '2024-03-08', '2024-08-20', '周明;吴俊'),
('CN202420345678.0', '防水运动手表', '实用新型', '2024-02-12', '2024-07-25', '林晓;郑凯'),
('CN202120789012.5', '新型雨伞设计', '实用新型', '2021-04-28', '2021-11-05', '杨波;刘悦'),
('CN202210890123.6', '区块链数据安全技术', '发明创造', '2022-07-25', '2022-12-12', '马宁;赵亮'),
('CN202320901234.7', '创意家居装饰品', '实用新型', '2023-07-02', '2023-12-20', '孙琳;李阳'),
('CN202411167890.1', '新型合金材料制备工艺', '发明创造', '2024-10-05', '2025-01-10', '朱春野;陶启长'),
('CN202420278901.X', '便捷式电子秤设计', '实用新型', '2024-02-20', '2024-08-05', '许亦琳;余明伟'),
('CN202411289012.2', '智能数据分析方法', '发明创造', '2024-11-12', '2025-02-25', '韦东;余明伟'),
('CN202420390123.X', '创意手机支架', '实用新型', '2024-03-18', '2024-09-20', '杨华;王敏生'),
('CN202411390124.3', '高效能源转化技术', '发明创造', '2024-11-25', '2025-03-15', '邬剑星;陶启长'),
('CN202420490125.4', '可折叠收纳袋', '实用新型', '2024-04-12', '2024-10-25', '刘敏;许亦琳'),
('CN202411490126.5', '智能物流管理系统', '发明创造', '2024-12-02', '2025-04-10', '王强;韦东'),
('CN202420590127.6', '多功能钥匙扣设计', '实用新型', '2024-05-08', '2024-11-15', '赵晓;余明伟'),
('CN202411590128.7', '新型环保材料研发', '发明创造', '2024-12-10', '2025-04-25', '李明;陶启长'),
('CN202420690129.8', '便携式手电筒', '实用新型', '2024-06-05', '2024-12-05', '张华;许亦琳'),
('CN202411690130.1', '智能医疗辅助设备', '发明创造', '2024-12-18', '2025-05-10', '王强;韦东;余明伟'),
('CN202420790131.2', '创意书签设计', '实用新型', '2024-07-02', '2025-01-20', '孙悦;刘敏'),
('CN202411790132.3', '高效农业生产技术', '发明创造', '2024-12-25', '2025-05-25', '吴涛;周琳'),
('CN202420890133.4', '可折叠扇子设计', '实用新型', '2024-07-20', '2025-02-15', '郑宇;林悦'),
('CN202411890134.5', '新型能源存储装置', '发明创造', '2024-12-30', '2025-06-10', '陈晨;杨阳'),
('CN202420990135.6', '便携式雨伞', '实用新型', '2024-08-15', '2025-03-05', '刘辉;张峰'),
('CN202411990136.7', '智能交通信号系统', '发明创造', '2025-01-05', '2025-06-25', '马丽;王鹏'),
('CN202421090137.8', '多功能文具盒设计', '实用新型', '2024-09-02', '2025-04-05', '赵丹;李华'),
('CN202412090138.9', '新型大数据处理技术', '发明创造', '2025-01-15', '2025-07-10', '王力;陈雪'),
('CN202421190139.X', '便携式水杯设计', '实用新型', '2024-09-20', '2025-04-20', '刘阳;张辉'),
('CN202412190140.2', '智能物流配送优化技术', '发明创造', '2025-01-25', '2025-07-25', '李丽;王浩'),
('CN202421290141.3', '创意笔记本设计', '实用新型', '2024-10-08', '2025-05-10', '赵刚;孙强'),
('CN202412290142.4', '高效能源利用技术', '发明创造', '2025-02-05', '2025-08-10', '周明;吴俊'),
('CN202421390143.5', '便携式餐具设计', '实用新型', '2024-10-25', '2025-05-25', '林晓;郑凯'),
('CN202412390144.6', '新型人工智能算法', '发明创造', '2025-02-15', '2025-08-25', '杨波;刘悦'),
('CN202421490145.7', '创意手机挂件设计', '实用新型', '2024-11-08', '2025-06-15', '马宁;赵亮'),
('CN202412490146.8', '大数据安全防护技术', '发明创造', '2025-02-25', '2025-09-10', '孙琳;李阳'),
('CN202421590147.9', '便携式化妆镜设计', '实用新型', '2024-11-20', '2025-06-20', '张宇;王丽'),
('CN202412590148.X', '智能交通预测技术', '发明创造', '2025-03-05', '2025-09-25', '李明;王强'),
('CN202421690149.0', '多功能钱包设计', '实用新型', '2024-12-05', '2025-07-10', '陈刚;赵勇'),
('CN202412690150.3', '高效农业灌溉优化技术', '发明创造', '2025-03-15', '2025-10-10', '周伟;吴昊'),
('CN202421790151.4', '创意钥匙链设计', '实用新型', '2024-12-20', '2025-07-20', '林悦;郑佳'),
('CN202412790152.5', '新型环保能源技术', '发明创造', '2025-03-25', '2025-10-25', '杨辉;刘梅'),
('CN202421890153.6', '便携式小风扇设计', '实用新型', '2025-01-02', '2025-08-05', '马俊;王涛'),
('CN202412890154.7', '智能医疗诊断优化技术', '发明创造', '2025-04-05', '2025-11-10', '孙丽;李华'),
('CN202421990155.8', '创意笔袋设计', '实用新型', '2025-01-20', '2025-08-20', '张勇;王辉'),
('CN202412990156.9', '新型材料应用技术', '发明创造', '2025-04-15', '2025-11-25', '陈燕;刘芳'),
('CN202422090157.X', '便携式充电宝设计', '实用新型', '2025-02-10', '2025-09-15', '李明;刘刚'),
('CN202413090158.0', '智能安防预警技术', '发明创造', '2025-04-25', '2025-12-10', '王芳;陈强'),
('CN202422190159.1', '创意手机壳设计', '实用新型', '2025-03-05', '2025-10-05', '赵斌;许亦琳'),
('CN202413190160.3', '高效能源回收技术', '发明创造', '2025-05-05', '2026-01-10', '朱春野;陶启长'),
('CN202422290161.4', '便携式耳机设计', '实用新型', '2025-03-20', '2025-10-20', '韦东;余明伟'),
('CN202413290162.5', '智能数据分析优化技术', '发明创造', '2025-05-20', '2026-01-25', '杨华;王敏生'),
('CN202422390163.6', '创意书签夹设计', '实用新型', '2025-04-05', '2025-11-15', '邬剑星;陶启长'),
('CN202413390164.7', '新型环保工艺优化技术', '发明创造', '2025-05-30', '2026-02-10', '刘敏;许亦琳'),
('CN202422490165.8', '便携式小台灯设计', '实用新型', '2025-04-25', '2025-12-05', '王强;韦东'),
('CN202413490166.9', '智能物流管理优化技术', '发明创造', '2025-06-15', '2026-02-25', '赵晓;余明伟'),
('CN202422590167.X', '创意笔记本封面设计', '实用新型', '2025-05-15', '2025-12-20', '李明;陶启长'),
('CN202413590168.0', '新型能源存储优化技术', '发明创造', '2025-06-30', '2026-03-10', '张华;许亦琳'),
('CN202422690169.1', '便携式梳子设计', '实用新型', '2025-06-10', '2026-01-05', '王强;韦东;余明伟'),
('CN202413690170.4', '智能医疗辅助设备优化技术', '发明创造', '2025-07-15', '2026-03-25', '孙悦;刘敏'),
('CN202422790171.5', '创意手机支架改良设计', '实用新型', '2025-07-05', '2026-02-05', '吴涛;周琳'),
('CN202413790172.6', '高效农业生产优化技术', '发明创造', '2025-08-05', '2026-04-10', '郑宇;林悦'),
('CN202422890173.7', '可折叠购物袋设计', '实用新型', '2025-08-15', '2026-02-20', '陈晨;杨阳'),
('CN202413890174.7', '新型大数据处理优化技术', '发明创造', '2025-08-30', '2026-04-25', '刘辉;张峰'),
('CN202422990175.8', '便携式餐具套装设计', '实用新型', '2025-09-10', '2026-03-15', '马丽;王鹏'),
('CN202413990176.8', '智能交通信号系统优化技术', '发明创造', '2025-09-25', '2026-05-10', '赵丹;李华'),
('CN202423090177.9', '多功能文具盒改良设计', '实用新型', '2025-10-05', '2026-04-05', '王力;陈雪'),
('CN202414090178.9', '新型大数据分析技术', '发明创造', '2025-10-20', '2026-05-25', '刘阳;张辉'),
('CN202423190179.X', '便携式水杯改良设计', '实用新型', '2025-11-05', '2026-04-20', '李丽;王浩'),
('CN202414190180.2', '智能物流配送精准技术', '发明创造', '2025-11-20', '2026-06-10', '赵刚;孙强'),
('CN202423290181.3', '创意笔记本内页设计', '实用新型', '2025-12-05', '2026-05-15', '周明;吴俊'),
('CN202414290182.4', '高效能源利用优化技术', '发明创造', '2025-12-20', '2026-06-25', '林晓;郑凯'),
('CN202423390183.5', '便携式化妆镜改良设计', '实用新型', '2026-01-05', '2026-06-10', '杨波;刘悦'),
('CN202414390184.6', '新型人工智能应用技术', '发明创造', '2026-01-20', '2026-07-10', '马宁;赵亮'),
('CN202423490185.7', '创意手机挂件改良设计', '实用新型', '2026-02-05', '2026-07-20', '孙琳;李阳'),
('CN202414490186.8', '大数据安全防护优化技术', '发明创造', '2026-02-20', '2026-08-10', '张宇;王丽'),
('CN202423590187.9', '便携式小风扇改良设计', '实用新型', '2026-03-05', '2026-08-20', '李明;王强');

一、表结构分析

我们有一个名为 t_patent_detail 的专利明细表,它包含以下重要字段:

  • patent_id:专利号,用于唯一标识每个专利。
  • patent_name:专利名称,清晰地展示专利的主题。
  • patent_type:专利类型,区分不同种类的专利。
  • aplly_date:申请时间,记录专利申请的日期。
  • authorize_date:授权时间,表明专利获得授权的时间点。
  • apply_users:申请人,值得注意的是,同一个专利可以有 1 到多个申请人,多人之间按分号隔开,此表记录数约 1 万条。

二、查询思路

为了得到各类型专利 top10 申请人和专利申请数,我们采取以下步骤:

(一)处理申请人字段

首先,由于申请人字段中可能存在多个申请人(以分号分隔),我们需要将这个字段 "炸裂"(使用 explode 函数)。通过 lateral view explode(split(apply_users,';')) t1 as coll,我们创建了一个临时的视图,将每个申请人单独提取出来,并赋予一个新的列名 apply_name。这样,原本一行可能对应多个申请人的数据,会被扩展成多行,每行对应一个申请人。

(二)分组计数和排名

在处理好申请人字段后,我们对新生成的数据集进行分组。使用 group by t1.apply_name 按照申请人进行分组,然后使用 count(*) 函数计算每个申请人的专利申请数。接着,使用 rank() over(order by count(*) desc) 函数对申请人按照专利申请数进行降序排名。

三、Hive 查询语句

以下是完整的 Hive 查询语句:

sql 复制代码
select t1.apply_name `申请人`,
       count(*) `专利申请数`,
       rank() over(order by count(*) desc) `专利数排名`
from (
    --先将申请人字段炸裂
    select d.*, t1.coll `apply_name`
    from t_patent_detail d
    lateral view explode(split(apply_users,';')) t1 as coll
) t1
group by t1.apply_name limit 0,10; --按照申请人分组

查询结果如下:

相关推荐
tsyjjOvO2 天前
SpringMVC 从入门到精通
数据仓库·hive·hadoop
Francek Chen2 天前
【大数据存储与管理】分布式数据库HBase:05 HBase运行机制
大数据·数据库·hadoop·分布式·hdfs·hbase
zzzzzwbetter2 天前
Hadoop完全分布式部署-Master的NameNode以及Slaver2的DataNode未启动
大数据·hadoop·分布式
weixin_449310842 天前
ETL转换和数据写入小满OKKICRM的技术细节
数据仓库·php·etl
IvanCodes2 天前
Hive IDE连接及UDF实战
ide·hive·hadoop
yumgpkpm2 天前
华为昇腾910B 开源软件GPUStack的介绍(Cloudera CDH、CDP)
人工智能·hadoop·elasticsearch·flink·kafka·企业微信·big data
lifewange3 天前
Hive数据库
数据库·hive·hadoop
五月天的尾巴4 天前
hive数据库模糊查询表名
hive·查询表名
蓝魔Y4 天前
hive—1.1、执行优化
hive
快乐非自愿4 天前
OpenClaw 生态适配:Hadoop/Hive 技能现状与企业级集成方案
大数据·hive·hadoop·分布式·openclaw