【Python实战因果推断】41_合成控制1

目录

[Online Marketing Dataset](#Online Marketing Dataset)


在之前了解了面板数据在因果识别方面的优势。也就是说,你不仅可以比较单位之间的关系,还可以比较单位的前世今生,这样你就可以用更可信的假设来估计反事实 。您还了解了差分法(DID)及其多种变体,它是利用面板数据进行因果推理的众多工具之一。通过依赖干预对象和对照对象之间相似(平行)的增长轨迹,即使干预对象和对照对象之间的 水平不同,差分法也能识别治疗效果。在本文中,您将学习另一种流行的面板数据集技术:合成控制(SC)。

如果与时间段 T 相比,单位数 N 相对较多,那么 DID 的效果会很好,但如果情况相反,DID 的效果就会大打折扣 。与此相反,合成控制的设计目的是在只有极少数甚至只有一个干预单位的情况下发挥作用 。它背后的理念非常简单:将控制单元结合起来,以制作一个合成控制,使其近似于没有干预时受治疗单元的行为这样做可以避免做出平行趋势假设,因为合成控制如果设计得好,就不仅仅是平行趋势,而是与反事实 完全重合

在本文最后,您还将学习如何将 DID 和 SC 结合起来。这种组合估算器不仅功能强大,最重要的是,它将让你对差分和合成控制,特别是面板数据方法有一个全新的认识。

Online Marketing Dataset

作为合成控制的一个用例,您将使用一个在线营销数据集。与离线营销相比,在线营销可以进行更好的跟踪,但这并不意味着它对因果推理没有挑战。例如,在线营销的确可以更好地进行归因:您可以知道客户是否通过某个付费营销链接接触到您的产品。但这并不意味着你知道,如果顾客没有看到你的在线广告,他们会发生什么。也许客户只是因为看到了广告才来的,在这种情况下,广告会带来额外的客户。但也有可能,无论哪种方式,客户都会来,而他们通过付费链接来,只是因为该链接位于页面顶部。

由于归因与增量不同,而且您无法随机化谁会看到您的广告,因此对整个地域进行处理并进行某种面板数据分析,就像上一章所说的那样,也是网络营销的一个好主意。因此,这里的数据与上一章中的数据并无太大区别。同样,城市是单位,日期是时间维度,治疗列标记城市是否最终接受了治疗,治疗后列标记干预后时期。此外,还有一些辅助列,如该城市的人口(记录于 2013 年,因此在时间上是固定的)和州:

python 复制代码
 import pandas as pd
 import numpy as np
 df = (pd.read_csv("./data/online_mkt.csv")
 .astype({"date":"datetime64[ns]"}))
 df.head()

在这里,干预变量是应用程序的日下载量,处理方

python 复制代码
 tr_period = df_norm.query("post==1")["date"].min()
 tr_period
 
 Timestamp('2022-05-01 00:00:00')

法是在该城市开启营销活动。干预同时在接受干预的城市实施,这意味着您采用了简单的区组设计。这里的问题是,处理单位的数量要少得多,只有三个城市:

python 复制代码
 treated = list(df.query("treated==1")["city"].unique())
 treated
 ['sao_paulo', 'porto_alegre', 'joao_pessoa']

如果您留意了数据框中的人口一栏,您可能会注意到,其中一个城市圣保罗拥有超过 1200 万的庞大人口。事实上,它是世界上最大的城市之一!这也意味着圣保罗的应用程序下载量将远远大于其他城市,这就带来了一些挑战。我们很难将其他城市的下载量与圣保罗的下载量结合起来进行合成控制。这个问题在这里更加严重,但一般来说,整个市场的规模都会不同,因此很难进行跨市场比较。因此,常用的方法是根据市场规模对结果进行归一化处理。这意味着将应用程序下载量除以城市人口数量,以创建一个归一化版本的结果。这个新的结果,即 app_download_pct,表示每日下载量占市场规模的百分比:

python 复制代码
 df_norm = df.assign(
 app_download_pct = 100*df["app_download"]/df["population"]
 )
 df_norm.head()

继续进行探索性分析,您会发现在 2022-05-01 年为这些城市发起了在线营销活动。在分析时间窗口的剩余时间内,该活动也一直在进行:

python 复制代码
 tr_period = df_norm.query("post==1")["date"].min()
 tr_period
 
 Timestamp('2022-05-01 00:00:00')

现在是回顾一下您将要使用的一些面板符号的好时机。请记住,为避免混淆,我将用 D 表示干预变量,用 t 表示时间。T 将是期间数, 是干预前的期间数, 是干预后的期间数。因此,当 D = 1 且 t > 时,干预就开始了。为了简化,我有时会使用后虚拟变量来表示 t > 。干预和干预后的组合将用 表示。

为了让您了解这些数据的情况,下图以浅灰色显示了三个接受治疗城市的平均结果的变化情况,背景则是对照城市的样本。水平虚线标出了干预后的起始时间:

从图中可以看出,干预后受治疗单位的结果有所上升,但并不是 100% 清晰。为了更精确,您必须对反事实进行估计,并将其与观察到的干预结果进行比较,从而得到对受干预者的平均治疗效果(ATT)的估计值:

这就是合成控制的作用所在。这是一种非常巧妙的方法,它利用(但不以)过去的结果来估计

相关推荐
一点媛艺1 小时前
Kotlin函数由易到难
开发语言·python·kotlin
qzhqbb2 小时前
基于统计方法的语言模型
人工智能·语言模型·easyui
冷眼看人间恩怨2 小时前
【话题讨论】AI大模型重塑软件开发:定义、应用、优势与挑战
人工智能·ai编程·软件开发
2401_883041082 小时前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
青云交2 小时前
大数据新视界 -- 大数据大厂之 Impala 性能优化:融合机器学习的未来之路(上 (2-1))(11/30)
大数据·计算资源·应用案例·数据交互·impala 性能优化·机器学习融合·行业拓展
魔道不误砍柴功2 小时前
Java 中如何巧妙应用 Function 让方法复用性更强
java·开发语言·python
_.Switch3 小时前
高级Python自动化运维:容器安全与网络策略的深度解析
运维·网络·python·安全·自动化·devops
AI极客菌3 小时前
Controlnet作者新作IC-light V2:基于FLUX训练,支持处理风格化图像,细节远高于SD1.5。
人工智能·计算机视觉·ai作画·stable diffusion·aigc·flux·人工智能作画
阿_旭3 小时前
一文读懂| 自注意力与交叉注意力机制在计算机视觉中作用与基本原理
人工智能·深度学习·计算机视觉·cross-attention·self-attention
王哈哈^_^4 小时前
【数据集】【YOLO】【目标检测】交通事故识别数据集 8939 张,YOLO道路事故目标检测实战训练教程!
前端·人工智能·深度学习·yolo·目标检测·计算机视觉·pyqt