面试题1(京东)之HiveSql --- 难度:入门初级

第1题

有如下的用户访问数据

userId visitDate visitCount
u01 2017/1/21 5
u02 2017/1/23 6
u03 2017/1/22 8
u04 2017/1/20 3
u01 2017/1/23 6
u01 2017/2/21 8
u02 2017/1/23 6
u01 2017/2/22 4

要求使用SQL统计出每个用户的累积访问次数,如下表所示:

用户id 月份 小计 累积
u01 2017-01 11 11
u01 2017-02 12 23
u02 2017-01 12 12
u03 2017-01 8 8
u04 2017-01 3 3

数据:

u01 2017/1/21 5

u02 2017/1/23 6

u03 2017/1/22 8

u04 2017/1/20 3

u01 2017/1/23 6

u01 2017/2/21 8

u02 2017/1/23 6

u01 2017/2/22 4

*参考答案:*

sql 复制代码
create table jd(
    id string,
    data string,
    count  int
)row format delimited fields terminated by ' ';
load data local inpath '/opt/hive_data/jd' into table jd;


-- over后写字段名  子查询不用表名.字段名。  单表自连接才必须用表名.字段名
select  id `用户id`,vDate `月份` ,`小计`,sum(`小计`)
over(partition by id order by vDate rows between unbounded  preceding and current row )  `累积`
from
(select id,vDate,sum(count) `小计` from
(select id ,date_format(regexp_replace(data,'/','-'),'yyyy-MM') as vDate ,count from jd) t1
group by id,vDate) t2


--date是string类型,若用此函数,必须满足date的标准格式.
select year(date) from jd;
-- 执行成功
select date_format('2023-1-9','yyyy-MM')  datee;
-- 第一个参数必须满足hive的时间格式,第二个自定义
select date_format('2023-01-01 12:30:5','yyyy/MM/dd - HH/mm/ss')  datee;
-- 这里执行失败。 '2023-1' 并不是可以识别的日期格式
select date_format('2023-1','yyyy-MM')  datee;

第2题

有50W个京东店铺,每个顾客访客访问任何一个店铺的任何一个商品时都会产生一条访问日志,访问日志存储的表名为Visit,访客的用户id为user_id,被访问的店铺名称为shop,请统计:

1)每个店铺的UV(访客数)

Select shop, count(user_id) from visit group by shop;

2)每个店铺访问次数top3的访客信息。输出店铺名称、访客id、访问次数

数据:

u1 a

u2 b

u1 b

u1 a

u3 c

u4 b

u1 a

u2 c

u5 b

u4 b

u6 c

u2 c

u1 b

u2 a

u2 a

u3 a

u5 a

u5 a

u5 a

*参考答案*

sql 复制代码
create table jd2(
    username string,
    shopname string
)row format delimited fields terminated by ' ';
load data local inpath '/opt/hive_data/jd2' into table jd2;

select * from jd2 tablesample ( 3 rows )



-- 第一步:统计每一个店铺每一位顾客的访问次数

select shop, userid, count(*) as visit_count from visit group by shop, userid;

 

-- 第二步:对统计出来的访问次数排序(每一个店铺中分别排序)并给定编号

select *,

​    rank() over(partition by shop order by visit_count desc) as n

from (

  select shop, userid, count(*) as visit_count from visit group by shop, userid

)t1;

 

-- 第三步:筛选编号<=3的用户信息

select *

from (

  select *,

​      rank() over(partition by shop order by visit_count desc) as n

  from (

​    select shop, userid, count(*) as visit_count from visit group by shop, userid

  )t1
    -- 这里的 where 字段是窗口函数的字段。只能在窗口函数的外部中去where

) t2 where n <= 3;
复制代码
相关推荐
甄天1 小时前
SQL-Server分页查询多种方法讲解以及分页存储过程
数据库·sql
一抓掉一大把8 小时前
表复制某些字段的操作sql
数据库·sql
歪歪1008 小时前
t-sql和sql的有哪些区别和联系
大数据·数据库·后端·sql·网络协议·mysql·架构
vvilkim9 小时前
洞悉核心,驭数而行:深入理解 Oracle SQL 优化器(RBO 与 CBO)的性能调优哲学
数据库·sql·oracle
M_Reus_119 小时前
SQL优化--OR
数据库·sql·mysql
九皇叔叔18 小时前
【7】SQL 语句基础应用
数据库·sql·mysql
小云数据库服务专线20 小时前
GaussDB 数据库架构师修炼(十八) SQL执行引擎-概述
sql·数据库架构·gaussdb
麦聪聊数据20 小时前
能源行业数据库远程运维安全合规实践:Web化平台的落地经验
运维·数据库·sql·安全·数据服务
阿里云大数据AI技术1 天前
🏆 阿里云大数据AI平台登顶 NL2SQL 权威榜单 Spider 2.0
sql
liweiweili1261 天前
基于金庸武侠小说人物关系设计的完整 SQL 语句,包括数据库创建、表结构定义和示例数据插入
数据库·sql·oracle