一份热乎的阿里25届数据分析面试题

目录

阿里巴巴25届数分面试题

想要获取答案,想进一步了解SQL这门艺术语言的,可以订阅我的专栏数字化建设通关指南,将在该专栏进行详细解析。

[专栏 原价99,现在活动价39.9,按照阶梯式增长,还差3个名额将上升至59.9,直到恢复原价。](#专栏 原价99,现在活动价39.9,按照阶梯式增长,还差3个名额将上升至59.9,直到恢复原价。)

(1)SQL进阶实战技巧

(2)数仓建模实战技巧和个人心得


阿里巴巴25届数分面试题

10 亿数据,其中母婴人群 2700 万,游戏人群 2.1亿←每一类有5个app,档次从高到低分别为:

1-1,1-2,1-3,1-4,1-5

假设每个人只能用五类 app 中的几种(母婴,旅游,社交,游戏,网贷),我们有这些 app过去 180 天的序列数据←

sql 复制代码
User id            behavior
U1                 [180:(1-1:5,3-1:120,3-2:7),179:(1-2:5,3-3:123),...,1(2-1:5,5-5:1)]

Behavior 数据很脏,标点中英文都有,而且有很多无规律的空格,用户 id 是有规律的,可以理解成身份证号。

问题

(1)利用数据分析和统计学的知识,判断如何找到母婴人群和游戏人群,因为浏览母婴的人不一定是母婴人群,有可能是代购和邦亲朋好友购买

母婴/游戏人群的划分标准:

总次数>中位数,且使用天数>均值,且前4档使用天数>5 天且前 4档,一共 10 次以上

.

(2)扫一次表代价很大,怎么能减少扫表次数,你的想法要扫几次表

(3)如果要求计算的不那么精确,可以怎么优化,现在扫表几次

(4)Behavior 数据很长,而且数据很脏,如何最小代价的找到对应的 app 及档次←

(5)有没有什么?可以提前判断他不是这个人群或是这个人群的方法

(6)最后整理思路,你该如何找到这两个人群。

想要获取答案,想进一步了解SQL这门艺术语言的,可以订阅我的专栏数字化建设通关指南,将在该专栏进行详细解析。

专栏 原价99,现在活动价39.9,按照阶梯式增长,还差3个名额将上升至59.9,直到恢复原价。

数字化建设通关指南

主要内容:

(1)SQL进阶实战技巧

可以参考如下教程,具体链接如下

SQL很简单,可你却写不好?也许这才是SQL最好的教程

上面链接中的文章及技巧会不定期更新。

(2)数仓建模实战技巧和个人心得

1)新人入职新公司后应如何快速了解业务?

2)以业务视角看宽表化建设?

  1. 维度建模 or 关系型建模?

4)业务模型与数据模型有什么区别?业务阶段的模型该如何建设?

5)业务指标体系该如何建设?指标体系该如何维护?指标平台应如何建设?指标体系 该由谁来搭建?

6)如何优雅设计DWS层?DWS层模型好坏该如何评价?

7)指标发生异常,该如何排查?应从哪些方面入手寻找问题点?

8) 数据架构的选择,mpp or hadoop?

9)数仓团队应如何体现自己的业务价值,讲好数据故事?

10)BI与大数据有什么关系?BI与信息化、数字化之间有什么关系?BI与报表之间的关 系?

11)数据部门如何与业务部门沟通,并规划指引业务需求?

文章不限于以上内容,有新的想法也会及时更新到该专栏。

具体专栏链接如下:

数字化建设通关指南_莫叫石榴姐的博客

相关推荐
白榆maple10 分钟前
(蓝桥杯C/C++)——基础算法(下)
算法
JSU_曾是此间年少14 分钟前
数据结构——线性表与链表
数据结构·c++·算法
零炻大礼包37 分钟前
【SQL server】数据库远程连接配置
数据库
zmgst1 小时前
canal1.1.7使用canal-adapter进行mysql同步数据
java·数据库·mysql
几两春秋梦_1 小时前
符号回归概念
人工智能·数据挖掘·回归
随心............1 小时前
python操作MySQL以及SQL综合案例
数据库·mysql
€☞扫地僧☜€1 小时前
docker 拉取MySQL8.0镜像以及安装
运维·数据库·docker·容器
CopyDragon1 小时前
设置域名跨越访问
数据库·sqlite
xjjeffery1 小时前
MySQL 基础
数据库·mysql
写bug的小屁孩1 小时前
前后端交互接口(三)
运维·服务器·数据库·windows·用户界面·qt6.3