归因分析在去哪儿的应用落地

一、前言

归因,作为一种分析方法,旨在通过数据和逻辑推理,确定某个结果(如业务量、转化率、满意度等)是由哪些因素(如产品、价格、市场等)导致的,以及具体如何影响的,其在心理学、投资学、广告投放等多领域均有相关理论研究。例如,在互联网广告投放中,可以通过归因分析来评估不同的营销渠道对用户转化率的作用,并优化具体投放策略;在教育心理学领域,归因分析可以帮助教育工作者了解学生的学习态度和行为,并采取相应的教育策略来激发学生的学习动机。运用归因分析的方法,我们可以更好地厘清事物之间的因果关系,识别哪些因素是需要改进或调整的,进而有针对性地优化工作流程,避免陷入低效忙碌和迷茫的状态,减少盲目决策的风险。

二、背景

在公司各业务线工作汇报中,常被问到:为什么转化率又掉了?用户流失率高了是高在哪儿了?为什么业务指标有这样的波动?可见业务分析作为整个公司策略发现的重要环节,在业务------数据------运营的闭环中如何运用归因分析来解决为什么的疑问,并且使其效率更快、质量更高以及结果更可解释是至关重要的。

三、调研

既然要做归因分析,我们需要了解归因分析的流程和当前存在的痛点。先来看一下正常的归因"四步走"流程:通过业务现象收集相关收据,对数据统计分析后,定位引起现象的问题点。而在统计分析流程中往往面临维度简单、效率低下、深入挖掘困难以及维度处理不当等痛点,分析的维度过于简单得不到想要的结果,而分析维度一多则容易陷入深入挖掘困难且效率低下的困境,此外,人工处理更易面临维度处理不当的问题,最终导致分析耗时大、分析质量参差不齐的现状。

面对这些问题,业务侧和算法侧可以制定什么样的解决方案呢?

业务侧重视基础数据建设,主要包括:

  1. 提高数据准确度:数据清洗
  2. 提升基础分析效率:标准化分析SQL、零散报表规整
  3. 助力归因分析结果可解释性:构建业务维度体系,确保维度丰富度、与业务贴合度

算法侧建立标准归因分析方法论,目前常见的归因分析方法不少,包括传统分析方法、基于统计学方法、基于因果推断方法,但大多属于遇到问题解决问题的动作,缺少完整的归因流程来指导分析人员从定位分析目标、梳理全面的分析维度体系,到运用正确的分析方法,最终快速得到有效分析结果。因此我们归因分析的目标如下:

  1. 提高分析效率
  2. 提升分析质量
  3. 建立标准归因分析流程

从问为什么,一步步定位哪个业务线的什么场景,再到具体怎么影响,最后从长短期趋势归纳,更高效科学的指导业务运营。

四、方案

1、整体方案

基于时间观测数据的波动归因分析流程,提供了一整套完整且高效的分析方法,指导分析人员从业务数据中发现问题------到明确业务线具体场景以及转化环节------再到明确是否不可控因素------最后基于可控因素给出因果关系结果的分析流程,以及各流程节点适用的方法模型,这种方法以何种工具落地,以及最后的落地成果。

2、详细步骤

主要包括四步:从业务数据发现问题;分类找对应的问题原因;对问题原因定性是否为可控因素;对可控因素做因果关系检测。详细介绍如下:

2.1 从业务数据中发现问题

通过监控报警以及报表的途径,波动异常阈值触发,定义明确的归因分析目标。

2.2 分类找问题原因

定义归因目标后,首先横向归因------定位哪个业务下的什么场景导致的,实现方法主要包括:基于多叉树、SQL,归因目的为明确波动具体场景,落地形式主要以自助邮件报表推送归因报告(如下图所示)。由图可知自助邮件报表推送的主要框架:首先获取分析数据源,然后指定分析目标字段、分析维度、扩展维度,约束分析时间周期,下一步通过自定义分裂函数的多叉树模型,结合扩展维度计算逻辑,输出标准化归因分析报告,最后以调度配置实现分析报告的自助邮件报表推送。

第二步纵向归因:定位哪个转化环节导致的,实现方法主要为报表统计,落地形式主要以数据看板呈现归因结果,以明确具体转化环节。

第三步业务经验未覆盖场景挖掘:这一部分针对无(成熟)业务经验、无任何头绪领域归因的情况。比如洼地场景挖掘辅助策略运营,实现方法主要为基于二叉树模型,落地形式主要以归因分析工具(如下图所示),通过图格式和表格式展示挖掘到的未知洼地场景分析报告。由图可知,在获取分析数据源后,用户需要指定分析的目标字段、分析的维度字段、以及需要扩展的维度字段,约束分析的时间周期,接下来通过结合目标字段类型和日期字段取值,自动选择模型处理方法,结合分析维度的字段类型,自动选择特征处理方法,再将模型结果可视化为图格式和表格式两种类型的分析结果报告,最后是结合扩展维度字段的标准化报告输出。

2.3 对问题原因定性质:是否可控因素

找到原因之后,接下来定性这些原因中哪些是可控的,哪些是不可控的(即人为无法操控),这里的不可控包括时间因素和空间因素的不可控,若为不可控因素,需长期监控,若为可控因素,下一步可给出具体建议。这里的时间因素即时序规律性,像气温的变化是具有自然性的,实现方法为时序数据趋势预测法;空间因素即人群结构的市场性,实现方法为辛普森悖论方法(后续重点介绍),落地形式为功能封装、随调随用。通过以上时间因素和空间因素检测,可明确所找原因中不可控因素。

2.4 对可控因素做因果关系检测

针对可控因素,我们需要检测哪些变量与归因目标之间是因果关系,实现方法为基于贝叶斯网络的因果关系检测(如下图),落地形式为功能封装。由下图可知,通过贝叶斯网络模型,可以获取分析维度与归因目标、分析维度与分析维度之间的因果关系图,进而确定以归因目标为结果变量的因果关系链路,以及此链路涉及维度的影响权重。

3、亮点介绍

3.1 识别空间因素

3.1.1 什么是辛普森悖论

定义:英国统计学家E.H.辛普森(E.H.Simpson)于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种趋势,可是一旦合并考虑,却可能导致相反的结论。

3.1.2 如何应用辛普森悖论识别空间因素

空间因素定义:用户结构分布差异,所引起的转化率波动

结合下述实例做简单说明:

  1. 既然是用户结构分布差异,先定义用户结构,包括:年龄、性别、手机机型、新老用户、常驻城市等用户结构维度;
  2. 再计算人群结构分布,以手机机型为例,计算分析日期T-1和T-2日对应的ios机型和安卓机型人群占比,通过计算人群结构占比发现安卓机型的人群占比是上升的;
  3. 最后是辛普森悖论的应用,我们要对转化率下降归因,计算手机机型维度下ios机型和adr机型T-1相比T-2转化率如上表,发现T-1日相比T-2日,ios机型和安卓机型的转化率均为上升的,那为什么总体的转化率还是下降的呢?

所以此处的辛普森悖论应用,即安卓机型人群分布的差异,引起的转化率波动:由于安卓机型人群转化率低于ios机型人群,且安卓机型人群占比的升高导致的T-1日相比T-2日转化率下降。**

**

3.2 自动化特征选择

自动化和智能化的应用算法人员处理数据、选择算法的经验

  • 目标字段: 根据用户是否选择对比日期,自动选择对应模型处理方法
  • 特征字段: 自动识别特征字段类型(连续型/离散型/布尔型等),不同特征类型对应不同特征处理方法

3.3因果关系检测

在探索因果关系如何检测之前,我们先来学习变量之间的各种关系是如何定义与区分的。

3.3.1 变量之间有哪些关系?

变量间的三种关系

  • 相关
  • 关联
  • 因果
相关关系

定义

  • 指事件A发生后,事件B也随之发生,但是两者之间不属于原因与结果的关系

识别方法

  • 皮尔逊(Pearson)相关系数,连续变量、线性关系

  • 斯皮尔曼(Spearman)相关系数,离散变量、非线性关系

  • 肯德尔相关系数

关联关系

定义

  • 一个变量的某些值倾向于与另一个变量的某些值共同出现

识别方法

  • 卡方检验(chi-square test)
  • 费舍尔精确检验(Fisher exact test)
  • 超几何检验(hypergeometric test)
因果关系

定义

一个事件、过程或状态(一个原因)促成另一个事件、过程或状态(一个结果)产生的影响,其中原因对结果负部分责任,而结果部分取决于原因。

识别方法

  • 基于约束的方法、基于因果函数模型的方法、图模型(基于DAG)
  • 元学习因果结构 、结构方程建模 (SEM)、因果贝叶斯网络
  • 格兰杰因果关系检验
三种关系间的差异
  1. 相关性可以做出预测,但是不能用来决策;而因果关系可以指导决策。
  2. 关联性本身并不意味着因果关系。
3.3.2 基于贝叶斯网络的因果关系检测
贝叶斯定理
  • 后验概率(posterior probability)是给定X发生的概率;
  • 条件概率(conditional probability)或似然是在假设成立的情况下,证据发生的概率;
  • 先验(prior)信念是在观察到证据之前,假设的概率;
  • 边际(marginal)概率描述了在所有可能的假设下新证据发生的概率。
技术框架
结果输出
  1. 因果关系图输出(见下图)
  2. 每条边表示一种因果关系
  3. 根据因果关系图获取因果关系链路
  4. 因果链路涉及维度的影响权重

五、应用案例

业务线转化率下降归因

下面是基于所建立时间观测数据的波动归因分析流程,在酒店某业务转化率波动分析的实际应用(如下图):

第一步确定问题。通过监控报警发现酒店某业务转化率T1日相比T2日下降异常,确定本次归因分析时间周期为"T1日期相比T2日期",归因目标为"酒店某业务转化率下降2.26%"。

第二步找问题原因。通过二叉树方法实现归因分析报告邮件报表推送,从而定位到影响转化率下降原因的TOP2场景为: 新客连住人群影响1.25%,非会员的青年人群影响1.01%。通过报表统计实现归因分析数据看板,从而定位到影响转化率下降原因的页面以预订到下单页面为主,最终从横纵向定位到此次酒店转化率下降原因。

第三步对问题定性。通过对不可控因素检测,包括基于趋势预测法的时间因素检测,和基于辛普森悖论检测方法的空间因素检测。发现可控因素影响2.21%,占比98%,不可控因素影响0.05%,占比2%,最终定性此次酒店转化率下降主要由可控因素导致。

第四步根据原因给出建议。在第二步找到的原因中,哪些因素才是导致问题的原因变量,通过基于贝叶斯网络的因果检测可得以目标变量为结果变量的因果联系链路为:年龄--->新老客--->核心目的地--->是否会员--->转化率。

综上可得归因分析结论:T1日期相比T2日期酒店某业务转化率下降异常,主要是预订到下单页面的新客连住人群和非会员青年人群波动导致,这些影响大多属于可控因素,通过因果关系检测可知,由于年龄结构引起新老客差异,进而导致用户核心目的地差异,核心目的地不同影响用户是否是会员人群,最终导致转化率波动,故后续可从此因果关系链路的原因变量入手,提高转化率。

以上数据并非直接来源于公司的业务运营数据,我们对原始数据进行了保留统计特性的数据变换。

六、成果

1、效率&质量

  1. 提效率:单case分析耗时下降75%
  2. 升质量:分析报告面向产品、可解释

2、业务落地

  1. 已覆盖公司多业务线
  2. 机票业务线业务洼地场景挖掘

3、外部分享

  1. 2023中国数据库技术大会分享归因分析主题
  2. 发明专利申请(已提交)

七、总结与规划

至此,归因分析的整套方法论以及应用基本结束,总结归因过程中的重要点如下:

  • 一是业务侧重视基础数据建设,数据质量是归因分析效果决定性因素,也是当前归因分析一大挑战
  • 二是以提问者心态做归因,明确对什么归因、怎么归因、有了归因结果能做什么
  • 三是实践出真知,贴合业务实践的归因才有价值

最后是未来规划,包括技术、流程和应用三方面:

  • 提升归因技术先进性,借助AIGC实现因果关系检测:拓延AIGC产生结构化数据能力,以及大语言模型根据预训练知识确定因果关系的能力,助力因果关系的发现,基于AIGC生成因果学习模型报告
  • 完善归因流程的完备性,建立AB实验归因分析标准流程:实验分析作为决定整个AB实验最终结论产出环节,在当前业务需求推动下需要建立AB实验领域结果分析的方法论,包括了对实验结果为什么不显著问题的归因标准化流程建立
  • 丰富应用实例的多样性,覆盖公司多业务线多业务场景,提升业务分析的效率和质量,帮助业务看得更清看得更远
相关推荐
Ritsu栗子30 分钟前
代码随想录算法训练营day23
c++·算法
~糖炒栗子~31 分钟前
[Day 12]904.水果成篮
数据结构·c++·算法·leetcode
Adunn32 分钟前
算法基础 - 二分查找
数据结构·c++·算法
HUT_Tyne26533 分钟前
力扣--283.移动零
数据结构·算法·leetcode
ALISHENGYA34 分钟前
全国青少年信息学奥林匹克竞赛(信奥赛)备考实战之循环结构(while循环应用)
开发语言·数据结构·c++·算法
久睡成瘾.44635 分钟前
《代码随想录》Day29打卡!
数据结构·算法
迪小莫学AI38 分钟前
检测相邻递增子数组 II - LeetCode 3350 解题思路与代码解析
数据结构·算法·leetcode
就爱学编程39 分钟前
力扣刷题:数组OJ篇(下)
c语言·算法·leetcode
就爱学编程40 分钟前
力扣刷题:数组OJ篇(上)
java·算法·leetcode
_星辰大海乀1 小时前
List-顺序表--2
java·开发语言·数据结构·算法·list·idea