数据分析面试常见50个问题及解答要点（五）

为了帮助各位学习数据分析的小伙伴们成功拿到offer！本期给大家整理了一些数据分析面试时的高频问题，分享给大家数据分析高频面试50题，点击下方链接进行下载完整版，下面展示部分面试题，希望大家积极点赞收藏加关注，一起冲鸭～

链接下载：https://edu.cda.cn/group/4/thread/178781

1、常见的变量分类方法有哪些?

【参考答案】

• T+1变量:前一天或更早的数据，主要是历史数据，对时效性要求不高。

例如:用户、供应商标签像数据，包括用户信用等级、供应商合作等级、规模大小等，用户、供应商历史风险订单及其他相关数据，如供应商被投诉情况等。

• 实时变量:短时间内获取的最新数据。

通常延迟在5分钟之内，对实时性有较高要求。比如用户当天的行为数据，如App的打开、操作数据，在条件允许时可以使用GPS数据。还有供应商实时库存紧张程度，通常用0~ 1之间的值来刻画。在选择好变量之后，对这些变量进行处理，称为特征工程。

2、在数据挖掘项中特征工程包括哪些方面?

【参考答案】

（1）验证逻辑:这是特征工程中必要的步骤，特别是在添加某一变量使模型效果得到了极大提升之后。

常见的逻辑错误如下：

• 因果关系倒置，将结果作为变量放入模型中，例如，通过用户评论情况判断订单是否被履行，实际上是后置数据，只有订单被履行的用户才会发表评论，相当于用结果证明过程。

• 忽略模型上线后变量计算时效性

• 在取数过程中出现错误

(2) 缺失值处理:对于一些模型(如XGBost模型)，在符合逻辑、确保缺失值具有一定意义的前提下，可以不做处理，其他情况都需要进行处理。在风险订单模型中，通常服务统计指标缺失的供应商为低频供应商，保留其空值，在一定程度上反而是最好的处理方法。

常见的缺失值处理方法如下:

• 用特定值表示 (如-9999) 。

• 统计插值 (均值、中值、众数) ，适用于数值型变量

• 模型插值:SKNN，参考最临近的K个值进行填补，EM聚类，选择不存在缺失值的变量进行聚类，根据所在类的其他值进行填补，

(3)异常值处理:判断业务逻辑在取数计算过程中是否出现错误，Hive取数时的join操作可能会因为一对多的对应关系而出现重复数据需要随时验证数据的唯一性。

• 统计方法: 盒形图、分位数

• 模型方法: iForest (孤立森林) ，每次随机划分属性和划分点(值)时都是随机的，计算样本所处节点的深度，深度越小越可能为异常值。

常见的异常值处理方法如下:

• 删除异常数据所在的记录。

• 将异常值记为缺失值，用填补缺失值的方法进行处理。

3、如果活动前通过分享每日新增用户为1000人，活动后通过分享每日新增用户也为1000人，活动效果好吗? 为什么?

【参考答案】

不一定。对于电商来说，受到了工作日、寒暑假的影响，从周一到周日，从1月到12月都会呈现出不同的增长表现。想象一个电商公司:在平稳运营的过程中，不采取任何的活动措施，周日新增用户量往往大于周一。

一年365天里，每段时间的自然增长基值是不一样的。可能周日的自然增长基值为1000，周一的自然增长基值为700。周一推出了分享拉新的活动:假设极端情况下，忽略随机波动值的影响，周一和周日都新增了1000人，所以活动带来了300的人为干扰波动值，是有效果的。

4、如果让你从开始就介入一个分享活动，作为数据分析师，你的步骤是什么?

【参考答案】

第一步，活动前，和业务方沟通活动目标和方式，制定具体的监控指标。

第⼆步，活动中，搭建指标体系，每天观察活动效果，若发现问题及时反馈。

第三步，活动结束后，复盘活动效果，提出改进建议。

5、数据分析师应具备什么?

【参考答案】

一位好的数据分析师，应该以价值为导向，放眼全局、立足业务、与人为善，用数据来驱动增长。

• 基础技能:数据获取、分析、建模、可视化、业务思维

• 增长思维: 全局观(问题背景+分析目标) 、专业度、想象力、信任度

6、费米估算：芝加哥市一共有多少位钢琴调音师?

逻辑树分析法最经典的案例就是费米问题，在求职面试中，经常会考察这种问题：上海有多少辆出租车?

全国有多少个加油站?纽约一天有多少穿红色衣服的人?

诸如此类的估算问题，被称为费米问题。一般人拿到费米问题这样的题目就会觉得已知条件大少，摸不着头脑，不知道怎么解决，干脆凭感觉瞎猜一个数字。这其实忽视了面试官考察的目的，他不是要你一个确定的数字，而是想考查分析问题的思路。所以，你需要把自己的思路说出来，而不是一上来凭感觉胡说八道的。

据说，有一次费米在艺加哥大学的课堂上提出了一个古怪的问题: 芝加哥市一共有多少位钢琴调音师?

见学生们一片茫然，费米提示把这个问题"分解成一些便于操作的小问题，然后鼓起勇气作猜测和假设"首先：芝加哥有多少居民? 可靠的估算是300万;平均每个家庭有多少人:4人;多少家庭有钢琴?大概三分之一，那么全市大约就有25万架钢琴，一架钢琴隔多长时间需要调音? 平均5年，那么艺加哥平均每年有5万架次的钢琴需要调音;每个调音师每天能为多少架钢琴调音? 4架，假设他一年工作250天，那么他每年约为1000架钢琴调音。由此，费米和学生们推测，芝加哥市大概有50位钢琴调音师。看起来这个答案不太精确，因为调音师的实际数据有可能介于25位 ~ 100位之间。然而，事后有人用电话号码簿加以验证，实际统计的结果与费米的猜测十分接近。

费米的意图是想说明，我们可以提出假设，然后估算出相当近似的答案，费米处理问题的方式是将复杂、困难的问题分解成小的、可以解决的部分，从而以最直接的方法迅速解决问题。这种思维方式非常实用，可以帮助我们解决很多日常其至重要的问题。在上个世纪40年代的一个早晨，世界第一颗试验原子弹在美国新墨西哥州沙漠上爆炸，40秒钟后，震波传到费米和他的同事们驻扎的基地，费米把一些碎纸屑扔向空中让其随风飘落，然后通过迅速计算，费米向他的同事宣布爆炸的能量当于1万吨烈性炸药，这与精确测量的结果极为接近。

7、某CBD楼下有一个奶茶店门店，面积约为40平方米，请预估该门店每周的营业额。

【参考答案】

这其实是一个非常经典的费米估算问题，出现这类问题，并不是要求你要十分精确的计算出最终数据。而是考查你分析和拆解问题的思维能力。

逻辑树是所界定的问题与议题之间的纽带，它能在解决问题的小组内建立一种共识。逻辑树满足3个要素：

• 要素化: 把相同问题总结归纳成要素，找出关键因素

• 框架化: 将各个要素组织成框架，遵守不重不漏的原则

• 关联化: 框架内的各要素保持必要的相互关系，简单而不孤立

基于逻辑树的3个要素，我们把这个问题逐层拆解，首先奶茶店主要以饮品为主，我们主要估算奶茶的销售额。

营业额 = 消费人数 * 平均消费⾦额 (区分工作日和周末)

消费人数 = 营业时间单位时间消费人数 (区分高峰时段 + 低峰时段)

我们可以从需求端和供给端2个⻆度进行估算，整体思路如下：

1、从需求端估算

• 每天多少人喝咖啡

◦ CBD一共有多少人

• 喝咖啡的比例

◦ 每人每天喝几杯

2、从供给端估算

• 工作日供给

◦ 忙时供给

▪ 忙时每小时多少杯

▪ 一天多少忙时

◦ 闲时供给

▪ 闲时每小时多少杯

• 周末供给

◦ 忙时供给

▪ 忙时每小时多少杯

▪ 一天多少忙时

◦ 闲时供给

▪ 闲时每小时多少杯

▪ 一天多少闲时

3、估算过程

1）每天按照12h营业时间计算，其中客流量大有4h，客流量小8h (正常估算)

2）休息日平均营业额/4工作日平均营业额 (正常估算)。

3）工作日流量大的时候，每3分钟接一人次，人均消费30元 (高估)。

4）一个店40平米，我们假设50%的比例，那就是20平米，可以站下10个人 (低估)

5）那这样工作日高峰时间段每小时消费人数= 1h/3min * 10= 20* 10= 200 ，非高峰估算60

6）那工作日一天营业额 = 4 h* 200 个* 30元 +8 h* 60 个* 30元 = 38400.

7）一周的营业额 =38400 * 5 + 38400/4* 2 = 211200

8、什么是逻辑树分析?

【参考答案】

数据分析工作中有很多复杂的业务问题，无法直观地分析出原因所在，需要抽丝剥茧，逐层拆解深入，才能挖掘出问题的症结所在。这个时候就需要用到逻辑树分析，逻辑树分析是数据分析中最基础的一种方法，常常与其他常用的分析方法一起使用。

逻辑树又称问题树、演绎树或分解树等。麦肯锡分析问题最常使用的工具就是"逻辑树"。逻辑树是将问题的所有子问题分层罗列，从最高层开始，并逐步向下扩展。

把一个已知问题当成树干，然后开始考虑这个问题和哪些相关问题或者子任务有关。每想到一点，就给这个问题 (也就是树干)加一个"树枝"，并标明这个"树枝"代表什么问题。，一个大的"树枝"上还可以有小的"树枝"，如此类推，找出问题的所有相关联项目。

逻辑树是所界定的问题与议题之间的纽带;它能在解决问题的小组内建立一种共识。逻辑树满足3个要素:

• 要素化:把相同问题总结归纳成要素，找出关键因素

• 框架化: 将各个要素组织成框架，遵守不重不漏的原则

• 关联化: 框架内的各要素保持必要的相互关系，简单而不孤立

逻辑树分析的作用是，当我们面对一件复杂的事情或问题时，逻辑树可以帮助我们理清自己的思路，提供一个分析和思考的切入点，不进行重复和无关的思考。

9、A/Btest如何合理分流?

【参考答案】

用户分流一定要随机均匀，保证各组的用户分布一致，用分桶和分层两种方式。同一层切分为不同的桶，各桶之间是互斥的，即一个用户只能在一个桶里面，当要同时进行多个实验的时候，分桶导致单个桶的流量过小，可以进业务逻辑分为解翘的多层，不同的层共享同一批流量，这样一个瀛湖就可以进行多个实验，充分利用流量。

一种分组方式是分桶。我们直接将用户分割为几桶，用户只能在一个桶中。但是这种情况很不现实，因为如果我们要同时上线多个实验，流量不够切怎么办?那为了达到最小样本量，我们就得延长试验周期。

10、什么是漏斗分析?有哪些注意的点?

【参考答案】

通过拆分业务流程，形成关键漏斗，分析漏斗各个环节的转化率/跳出率，定位问题发生的环节，漏斗分析最核心的有3点:分解流程

评估转化率和定位问题环节。常见的漏斗有电商漏斗:首页→详情页→购物车→支付，还有用户的生命周期AARRR，用户行为周期AIDMA等。需要注意的点:漏斗的各个环节一定是连续的，对应连续的业务流程，漏斗环节不宜过多，一般不超过5个，一般以上一个环节为基准。

计算相邻两个环节的转化率:计算每相邻环节的转化率，1-转化率=流失率，但并不意味着转化率最低的环节就是问题环节，漏斗可以结合其他维度看，看不同维度下的漏斗差异进而判断是那个因素导致问题的出现。

分享了数据分析面试中常见的十个问题及其解答要点，不难发现，这些问题不仅考验了应聘者的专业知识，还涵盖了其实际应用能力、逻辑思维以及快速学习的潜力。为了进一步提升自己在数据分析领域的竞争力，考取CDA数据分析师认证无疑是一个明智的选择。

CDA认证对于你来说非常具有价值的：

如果你是一名学生，能够增强职场竞争力，同时也是技能的证明，可以拓宽自己的就业领域。

如果你是一名打工人，可以更快地获得晋升机会，从而获得更高的薪资待遇。

CDA认证官网：https://www.cdaglobal.com/certification.html