每天一道大厂SQL题【Day26】脉脉真题实战(二)活跃时长的均值

文章目录

每天一道大厂SQL题【Day26】脉脉真题实战(二)活跃时长的均值

大家好,我是Maynor。相信大家和我一样,都有一个大厂梦,作为一名资深大数据选手,深知SQL重要性,接下来我准备用100天时间,基于大数据岗面试中的经典SQL题,以每日1题的形式,带你过一遍热门SQL题并给出恰如其分的解答。

一路走来,随着问题加深,发现不会的也愈来愈多。但底气着实足了不少,相信不少朋友和我一样,日积月累才是最有效的学习方式!

每日语录

学习!还是他娘地学习!

第26题 中级题: 活跃时长的均值

1. 需求列表

昨日的活跃用户中,各个级别人才,当日最大活跃时长模块的活跃时长,占当日活跃总时长的比值的均值

思路分析

  1. 计算每个用户每天在各个模块的活跃时长总和。
  2. 找到每个用户每天活跃时长最大的模块。
  3. 计算每个用户每天活跃时长最大模块的活跃时长占当天活跃总时长的比值。
  4. 按照用户的职业水平分组,计算每组用户当天活跃时长最大模块的活跃时长占当天活跃总时长比值的均值。

答案获取

建议你先动脑思考,动手写一写再对照看下答案,如果实在不懂可以点击下方卡片,回复:大厂sql 即可。

参考答案适用HQL,SparkSQL,FlinkSQL,即大数据组件,其他SQL需自行修改。

加技术群讨论

点击下方卡片关注 联系我进群

或者直接私信我进群

附表

表1:maimai.dau

d uid module active_duration 列说明
2020-01-01 1 jobs 324 d: 活 跃 的 日 期 uid:用户的唯一编码module:用户活跃模块actre.duration:该模块下对应的活跃时长(单位:s)
2020-01-01 2 feeds 445
2020-01-01 3 im 345
2020-01-02 2 network 765
2020-01-02 3 jobs 342
... ... ... ...

表2:maimai.users

uid career_level city work_length 列说明
1 中级人才 北京 4 uid:用户的唯一编码career level:人才级别
2 高级人才 上海 7
3 初级人才 北京 1 city:用户所在城市work_length:用户工作年限
4 普通人才 平顶山 2
... ... ... ...
复制代码
-- 建表
-- 表1 dau	记录了每日脉脉活跃用户的uid和不同模块的活跃时长
create	or	replace	temporary	view	dau(d,	uid,	module, active_duration) as
values ('2020-01-01', 1, 'jobs', 324),
('2020-01-01', 2, 'feeds', 445),
('2020-01-01', 3, 'im', 345),
('2020-01-02', 2, 'network', 765),
('2020-01-02', 3, 'jobs', 342);

-- 表2 users 脉脉所有用户得一些注册属性
create	or	replace	temporary	view	users(uid,	career_level, city, work_length) as
values (1, '中级人才', '北京', 4),
(2, '高级人才', '上海', 7),
(3, '初级人才', '北京', 1),
(4, '普通人才', '平顶山', 2); 

文末SQL小技巧

提高SQL功底的思路。

1、造数据。因为有数据支撑,会方便我们根据数据结果去不断调整SQL的写法。

造数据语法既可以create table再insert into,也可以用下面的create temporary view xx as values语句,更简单。

其中create temporary view xx as values语句,SparkSQL语法支持,hive不支持。

2、先将结果表画出来,包括结果字段名有哪些,数据量也画几条。这是分析他要什么。

从源表到结果表,一路可能要走多个步骤,其实就是可能需要多个子查询,过程多就用with as来重构提高可读性。

3、要由简单过度到复杂,不要一下子就写一个很复杂的。

先写简单的select from table...,每个中间步骤都执行打印结果,看是否符合预期, 根据中间结果,进一步调整修饰SQL语句,再执行,直到接近结果表。

4、数据量要小,工具要快,如果用hive,就设置set hive.exec.mode.local.auto=true;如果是SparkSQL,就设置合适的shuffle并行度,set spark.sql.shuffle.partitions=4;

后记

📢博客主页:https://manor.blog.csdn.net

📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!

📢本文由 Maynor 原创,首发于 CSDN博客🙉

📢不能老盯着手机屏幕,要不时地抬起头,看看老板的位置⭐

📢专栏持续更新,欢迎订阅:https://blog.csdn.net/xianyu120/category_12182595.html

相关推荐
ITxiaobing20231 分钟前
Neel Somani 解读加州 AB 205 能源可靠性框架的长期市场影响
大数据·人工智能·能源
闪电悠米2 分钟前
黑马点评-Redis 消息队列-04_stream_seckill_order
数据库·redis·分布式·缓存·oracle·junit·lua
大大大大晴天6 分钟前
Hudi技术内幕:Query Types全解析
大数据
SeaTunnel6 分钟前
87 个 PR 迭代复盘|Apache SeaTunnel 5 月版本重点更新解读
大数据·数据库·开源·apache·seatunnel
薛定猫AI9 分钟前
【深度解析】ChatGPT vs Claude vs Gemini:2026年AI大模型选型全景对比
大数据·网络·人工智能
DolphinScheduler社区10 分钟前
实战演示 | 基于 Apache DolphinScheduler 与 Apache SeaTunnel 实现 MySQL 到 Doris 离线定时增量同步
数据库·mysql·开源·apache·海豚调度·大数据工作流调度
bmjIjFNC813 分钟前
Redis分布式锁进第九十一篇
数据库·redis·分布式
safium13 分钟前
停车设备 OEM 供应商选型:从硬件到运营能力的综合考量
大数据·人工智能
terry60014 分钟前
2026携号转网查询接口深度测评:技术指标、接入教程与服务商选型
大数据·人工智能·web安全·信息与通信·数据库架构
2601_9602058815 分钟前
2026年6月,中国品牌咨询行业正经历一场深刻的范式转移
大数据·人工智能·区块链