【python因果库实战26】逆概率加权模型1

这里写目录标题

逆概率加权模型

逆概率加权是一种基本的方法,用于获得平均效应的估计。

它计算每个样本属于其所在组的概率,

并使用该概率的倒数作为该样本的权重:
w i = 1 Pr ⁡ [ A = a i ∣ X i ] w_i=\frac1{\Pr[A=a_i|X_i]} wi=Pr[A=ai∣Xi]1

python 复制代码
%matplotlib inline
from causallib.datasets import load_nhefs
from causallib.estimation import IPW
from causallib.evaluation import evaluate
from sklearn.linear_model import LogisticRegression
from matplotlib import pyplot as plt
数据:

戒烟对减肥效果的影响。

本数据示例取自 Hernan 和 Robins 的《因果推断》一书。

bash 复制代码
data = load_nhefs()
data.X.join(data.a).join(data.y).head()
模型:

因果模型的核心是一个机器学习模型,以 learner 参数的形式提供。这个 ML 模型将用于根据协变量预测戒烟的可能性。

这些可能性将用于获取 w i w_i wi。

然后,我们将使用 Horvitz-Thompson 估计器估计平均平衡结果:
E ^ [ Y a ] = 1 ∑ i : A i = a w i ⋅ ∑ i : A i = a w i y i \hat{E}[Y^a]=\frac1{\sum_{i:A_i=a}w_i}\cdot\sum_{i:A_i=a}w_iy_i E^[Ya]=∑i:Ai=awi1⋅∑i:Ai=awiyi

最后,我们将利用这些平均反事实结果来预测效应:
E ^ [ Y 1 ] − E ^ [ Y 0 ] \hat{E}[Y^1]-\hat{E}[Y^0] E^[Y1]−E^[Y0]

bash 复制代码
# Train:
learner = LogisticRegression(solver="liblinear")
ipw = IPW(learner)
ipw.fit(data.X, data.a)
IPW(clip_max=None, clip_min=None, use_stabilized=False, verbose=False,
    learner=LogisticRegression(solver='liblinear'))
# We can now preict the weight of each individual:
ipw.compute_weights(data.X, data.a).head()
0    1.149089
1    1.198450
2    1.200264
3    1.959673
4    1.336338
dtype: float64
# Estimate average outcome
outcomes = ipw.estimate_population_outcome(data.X, data.a, data.y)
outcomes
0    1.750404
1    5.261713
dtype: float64
# Estimate the effect:
effect = ipw.estimate_effect(outcomes[1], outcomes[0])
effect
diff    3.511308
dtype: float64

非默认参数

我们刚刚看到了一个隐藏了许多模型参数的简单示例。

现在我们深入探讨每一阶段。

模型定义

机器学习模型:

任何 scikit-learn 模型都可以指定(甚至管道)

python 复制代码
learner = LogisticRegression(penalty="l1", C=0.01, max_iter=500, solver='liblinear')

IPW 模型有两个额外参数:

  • clip_min, clip_max: 修剪非常小或非常大的概率的卡尺值
  • stabilized: 是否按治疗流行病学比例调整权重
python 复制代码
clip_min = 0.2
clip_max = 0.8
ipw = IPW(learner, clip_min=clip_min, clip_max=clip_max, use_stabilized=False)
ipw.fit(data.X, data.a);
权重预测选项

现在我们可以预测戒烟的概率(治疗值 = 1),并验证我们的截断是否有效:

python 复制代码
probs = ipw.compute_propensity(data.X, data.a, treatment_values=1)
probs.between(clip_min, clip_max).all()
True

在"预测"阶段(即计算权重或概率时),

我们可以更改初始化时放置的参数:

python 复制代码
probs = ipw.compute_propensity(data.X, data.a, treatment_values=1, clip_min=0.0, clip_max=1.0)
probs.between(clip_min, clip_max).all()
False

我们甚至可以预测稳定的权重。

然而,我们会收到警告。

这是因为治疗流行病学比例是对训练数据的估计。

在拟合时,当模型拥有初始值时,use_stabilized 为 False(默认值)。

所以现在计算权重时,模型会使用提供的数据来估计治疗流行病学比例。

这里这不是大问题,因为我们在用相同数据计算,但这并不总是这样。

(如果我们将 use_stabilized=True 并重新训练模型,则不会出现此警告)

python 复制代码
stabilized_weights = ipw.compute_weights(data.X, data.a, treatment_values=1, 
                                         clip_min=0.0, clip_max=1.0, use_stabilized=True)
weights = ipw.compute_weights(data.X, data.a, treatment_values=1, 
                              clip_min=0.0, clip_max=1.0)
stabilized_weights.eq(weights).all()

由于 IPW 利用概率,对于每个样本,我们可以为每个治疗值获得概率(或权重)。

python 复制代码
# ipw.compute_weight_matrix(data.X, data.a).head()
ipw.compute_propensity_matrix(data.X, data.a).head()
效应估计选项

我们可以选择是希望得到加性(差值 diff)还是乘性(比率 ratio)效应

(如果结果 y 是概率,我们还可以要求得到几率比(or))

提供权重 w 是可选的,如果不提供,权重将简单地再次使用提供的 X 进行计算。

python 复制代码
outcomes = ipw.estimate_population_outcome(data.X, data.a, data.y, w=weights)
effects = ipw.estimate_effect(outcomes[1], outcomes[0], effect_types=["diff", "ratio"])
effects
diff     2.753878
ratio    2.141800
dtype: float64
相关推荐
小短腿的代码世界1 小时前
Qt反射机制深度解析:从QMetaObject到运行时类型推导的底层密码
开发语言·qt
m0_740653221 小时前
SQL如何利用聚合函数进行库存预测_历史数据分组汇总
jvm·数据库·python
2301_787312431 小时前
如何利用宝塔面板设置网站限流策略_防止恶意高并发请求
jvm·数据库·python
m0_733565461 小时前
SQL如何统计各分组下指标的波动率_STDDEV聚合函数应用
jvm·数据库·python
运气好好的1 小时前
CSS如何利用CSS变量管理间距_统一定义盒模型数值
jvm·数据库·python
2401_840105201 小时前
题解: [GESP202409 八级] 美丽路径
数据结构·c++·算法·动态规划
iuvtsrt1 小时前
HTML怎么实现快捷跳转顶部_HTML固定悬浮锚点按钮【介绍】
jvm·数据库·python
半壶清水1 小时前
windows环境下,bmv2虚拟交换机的部署与使用方法
网络·windows·python·网络协议
彳亍1011 小时前
WooCommerce 多渠道联盟链接动态追加教程
jvm·数据库·python