目录
想要获取答案,想进一步了解SQL这门艺术语言的,可以订阅我的专栏数字化建设通关指南,将在该专栏进行详细解析。
[专栏 原价99,现在活动价39.9,按照阶梯式增长,还差3个名额将上升至59.9,直到恢复原价。](#专栏 原价99,现在活动价39.9,按照阶梯式增长,还差3个名额将上升至59.9,直到恢复原价。)
阿里巴巴25届数分面试题
10 亿数据,其中母婴人群 2700 万,游戏人群 2.1亿←每一类有5个app,档次从高到低分别为:
1-1,1-2,1-3,1-4,1-5
假设每个人只能用五类 app 中的几种(母婴,旅游,社交,游戏,网贷),我们有这些 app过去 180 天的序列数据←
sql
User id behavior
U1 [180:(1-1:5,3-1:120,3-2:7),179:(1-2:5,3-3:123),...,1(2-1:5,5-5:1)]
Behavior 数据很脏,标点中英文都有,而且有很多无规律的空格,用户 id 是有规律的,可以理解成身份证号。
问题
(1)利用数据分析和统计学的知识,判断如何找到母婴人群和游戏人群,因为浏览母婴的人不一定是母婴人群,有可能是代购和邦亲朋好友购买
母婴/游戏人群的划分标准:
总次数>中位数,且使用天数>均值,且前4档使用天数>5 天且前 4档,一共 10 次以上
.
(2)扫一次表代价很大,怎么能减少扫表次数,你的想法要扫几次表
(3)如果要求计算的不那么精确,可以怎么优化,现在扫表几次
(4)Behavior 数据很长,而且数据很脏,如何最小代价的找到对应的 app 及档次←
(5)有没有什么?可以提前判断他不是这个人群或是这个人群的方法
(6)最后整理思路,你该如何找到这两个人群。
想要获取答案,想进一步了解SQL这门艺术语言的,可以订阅我的专栏数字化建设通关指南,将在该专栏进行详细解析。
专栏 原价99,现在活动价39.9,按照阶梯式增长,还差3个名额将上升至59.9,直到恢复原价。
数字化建设通关指南
主要内容:
(1)SQL进阶实战技巧
可以参考如下教程,具体链接如下
上面链接中的文章及技巧会不定期更新。
(2)数仓建模实战技巧和个人心得
1)新人入职新公司后应如何快速了解业务?
2)以业务视角看宽表化建设?
- 维度建模 or 关系型建模?
4)业务模型与数据模型有什么区别?业务阶段的模型该如何建设?
5)业务指标体系该如何建设?指标体系该如何维护?指标平台应如何建设?指标体系 该由谁来搭建?
6)如何优雅设计DWS层?DWS层模型好坏该如何评价?
7)指标发生异常,该如何排查?应从哪些方面入手寻找问题点?
8) 数据架构的选择,mpp or hadoop?
9)数仓团队应如何体现自己的业务价值,讲好数据故事?
10)BI与大数据有什么关系?BI与信息化、数字化之间有什么关系?BI与报表之间的关 系?
11)数据部门如何与业务部门沟通,并规划指引业务需求?
文章不限于以上内容,有新的想法也会及时更新到该专栏。
具体专栏链接如下: