一份热乎的阿里25届数据分析面试题

目录

阿里巴巴25届数分面试题

想要获取答案,想进一步了解SQL这门艺术语言的,可以订阅我的专栏数字化建设通关指南,将在该专栏进行详细解析。

[专栏 原价99,现在活动价39.9,按照阶梯式增长,还差3个名额将上升至59.9,直到恢复原价。](#专栏 原价99,现在活动价39.9,按照阶梯式增长,还差3个名额将上升至59.9,直到恢复原价。)

(1)SQL进阶实战技巧

(2)数仓建模实战技巧和个人心得


阿里巴巴25届数分面试题

10 亿数据,其中母婴人群 2700 万,游戏人群 2.1亿←每一类有5个app,档次从高到低分别为:

1-1,1-2,1-3,1-4,1-5

假设每个人只能用五类 app 中的几种(母婴,旅游,社交,游戏,网贷),我们有这些 app过去 180 天的序列数据←

sql 复制代码
User id            behavior
U1                 [180:(1-1:5,3-1:120,3-2:7),179:(1-2:5,3-3:123),...,1(2-1:5,5-5:1)]

Behavior 数据很脏,标点中英文都有,而且有很多无规律的空格,用户 id 是有规律的,可以理解成身份证号。

问题

(1)利用数据分析和统计学的知识,判断如何找到母婴人群和游戏人群,因为浏览母婴的人不一定是母婴人群,有可能是代购和邦亲朋好友购买

母婴/游戏人群的划分标准:

总次数>中位数,且使用天数>均值,且前4档使用天数>5 天且前 4档,一共 10 次以上

.

(2)扫一次表代价很大,怎么能减少扫表次数,你的想法要扫几次表

(3)如果要求计算的不那么精确,可以怎么优化,现在扫表几次

(4)Behavior 数据很长,而且数据很脏,如何最小代价的找到对应的 app 及档次←

(5)有没有什么?可以提前判断他不是这个人群或是这个人群的方法

(6)最后整理思路,你该如何找到这两个人群。

想要获取答案,想进一步了解SQL这门艺术语言的,可以订阅我的专栏数字化建设通关指南,将在该专栏进行详细解析。

专栏 原价99,现在活动价39.9,按照阶梯式增长,还差3个名额将上升至59.9,直到恢复原价。

数字化建设通关指南

主要内容:

(1)SQL进阶实战技巧

可以参考如下教程,具体链接如下

SQL很简单,可你却写不好?也许这才是SQL最好的教程

上面链接中的文章及技巧会不定期更新。

(2)数仓建模实战技巧和个人心得

1)新人入职新公司后应如何快速了解业务?

2)以业务视角看宽表化建设?

  1. 维度建模 or 关系型建模?

4)业务模型与数据模型有什么区别?业务阶段的模型该如何建设?

5)业务指标体系该如何建设?指标体系该如何维护?指标平台应如何建设?指标体系 该由谁来搭建?

6)如何优雅设计DWS层?DWS层模型好坏该如何评价?

7)指标发生异常,该如何排查?应从哪些方面入手寻找问题点?

8) 数据架构的选择,mpp or hadoop?

9)数仓团队应如何体现自己的业务价值,讲好数据故事?

10)BI与大数据有什么关系?BI与信息化、数字化之间有什么关系?BI与报表之间的关 系?

11)数据部门如何与业务部门沟通,并规划指引业务需求?

文章不限于以上内容,有新的想法也会及时更新到该专栏。

具体专栏链接如下:

数字化建设通关指南_莫叫石榴姐的博客

相关推荐
old_power23 分钟前
【PCL】Segmentation 模块—— 基于图割算法的点云分割(Min-Cut Based Segmentation)
c++·算法·计算机视觉·3d
doubt。24 分钟前
【BUUCTF】[RCTF2015]EasySQL1
网络·数据库·笔记·mysql·安全·web安全
Bran_Liu37 分钟前
【LeetCode 刷题】字符串-字符串匹配(KMP)
python·算法·leetcode
涛ing39 分钟前
21. C语言 `typedef`:类型重命名
linux·c语言·开发语言·c++·vscode·算法·visual studio
Maybe_ch1 小时前
群晖部署-Calibreweb
数据库·群晖·nas
小辛学西嘎嘎1 小时前
MVCC在MySQL中实现无锁的原理
数据库·mysql
Jcqsunny1 小时前
[分治] FBI树
算法·深度优先··分治
CC呢1 小时前
基于STM32单片机火灾安全监测一氧化碳火灾
数据库·mongodb
黄金小码农1 小时前
C语言二级 2025/1/20 周一
c语言·开发语言·算法
MasterNeverDown2 小时前
解决 PostgreSQL 中创建 TimescaleDB 扩展的字符串错误
数据库·postgresql·oracle