【python因果库实战26】逆概率加权模型1

这里写目录标题

逆概率加权模型

逆概率加权是一种基本的方法,用于获得平均效应的估计。

它计算每个样本属于其所在组的概率,

并使用该概率的倒数作为该样本的权重:
w i = 1 Pr ⁡ A = a i ∣ X i w_i=\frac1{\PrA=a_i\|X_i} wi=PrA=ai∣Xi1

python 复制代码
%matplotlib inline
from causallib.datasets import load_nhefs
from causallib.estimation import IPW
from causallib.evaluation import evaluate
from sklearn.linear_model import LogisticRegression
from matplotlib import pyplot as plt
数据:

戒烟对减肥效果的影响。

本数据示例取自 Hernan 和 Robins 的《因果推断》一书。

bash 复制代码
data = load_nhefs()
data.X.join(data.a).join(data.y).head()
模型:

因果模型的核心是一个机器学习模型,以 learner 参数的形式提供。这个 ML 模型将用于根据协变量预测戒烟的可能性。

这些可能性将用于获取 w i w_i wi。

然后,我们将使用 Horvitz-Thompson 估计器估计平均平衡结果:
E ^ Y a = 1 ∑ i : A i = a w i ⋅ ∑ i : A i = a w i y i \hat{E}Y\^a=\frac1{\sum_{i:A_i=a}w_i}\cdot\sum_{i:A_i=a}w_iy_i E^Ya=∑i:Ai=awi1⋅∑i:Ai=awiyi

最后,我们将利用这些平均反事实结果来预测效应:
E ^ Y 1 − E ^ Y 0 \hat{E}Y\^1-\hat{E}Y\^0 E^Y1−E^Y0

bash 复制代码
# Train:
learner = LogisticRegression(solver="liblinear")
ipw = IPW(learner)
ipw.fit(data.X, data.a)
IPW(clip_max=None, clip_min=None, use_stabilized=False, verbose=False,
    learner=LogisticRegression(solver='liblinear'))
# We can now preict the weight of each individual:
ipw.compute_weights(data.X, data.a).head()
0    1.149089
1    1.198450
2    1.200264
3    1.959673
4    1.336338
dtype: float64
# Estimate average outcome
outcomes = ipw.estimate_population_outcome(data.X, data.a, data.y)
outcomes
0    1.750404
1    5.261713
dtype: float64
# Estimate the effect:
effect = ipw.estimate_effect(outcomes[1], outcomes[0])
effect
diff    3.511308
dtype: float64

非默认参数

我们刚刚看到了一个隐藏了许多模型参数的简单示例。

现在我们深入探讨每一阶段。

模型定义

机器学习模型:

任何 scikit-learn 模型都可以指定(甚至管道)

python 复制代码
learner = LogisticRegression(penalty="l1", C=0.01, max_iter=500, solver='liblinear')

IPW 模型有两个额外参数:

  • clip_min, clip_max: 修剪非常小或非常大的概率的卡尺值
  • stabilized: 是否按治疗流行病学比例调整权重
python 复制代码
clip_min = 0.2
clip_max = 0.8
ipw = IPW(learner, clip_min=clip_min, clip_max=clip_max, use_stabilized=False)
ipw.fit(data.X, data.a);
权重预测选项

现在我们可以预测戒烟的概率(治疗值 = 1),并验证我们的截断是否有效:

python 复制代码
probs = ipw.compute_propensity(data.X, data.a, treatment_values=1)
probs.between(clip_min, clip_max).all()
True

在"预测"阶段(即计算权重或概率时),

我们可以更改初始化时放置的参数:

python 复制代码
probs = ipw.compute_propensity(data.X, data.a, treatment_values=1, clip_min=0.0, clip_max=1.0)
probs.between(clip_min, clip_max).all()
False

我们甚至可以预测稳定的权重。

然而,我们会收到警告。

这是因为治疗流行病学比例是对训练数据的估计。

在拟合时,当模型拥有初始值时,use_stabilized 为 False(默认值)。

所以现在计算权重时,模型会使用提供的数据来估计治疗流行病学比例。

这里这不是大问题,因为我们在用相同数据计算,但这并不总是这样。

(如果我们将 use_stabilized=True 并重新训练模型,则不会出现此警告)

python 复制代码
stabilized_weights = ipw.compute_weights(data.X, data.a, treatment_values=1, 
                                         clip_min=0.0, clip_max=1.0, use_stabilized=True)
weights = ipw.compute_weights(data.X, data.a, treatment_values=1, 
                              clip_min=0.0, clip_max=1.0)
stabilized_weights.eq(weights).all()

由于 IPW 利用概率,对于每个样本,我们可以为每个治疗值获得概率(或权重)。

python 复制代码
# ipw.compute_weight_matrix(data.X, data.a).head()
ipw.compute_propensity_matrix(data.X, data.a).head()
效应估计选项

我们可以选择是希望得到加性(差值 diff)还是乘性(比率 ratio)效应

(如果结果 y 是概率,我们还可以要求得到几率比(or))

提供权重 w 是可选的,如果不提供,权重将简单地再次使用提供的 X 进行计算。

python 复制代码
outcomes = ipw.estimate_population_outcome(data.X, data.a, data.y, w=weights)
effects = ipw.estimate_effect(outcomes[1], outcomes[0], effect_types=["diff", "ratio"])
effects
diff     2.753878
ratio    2.141800
dtype: float64
相关推荐
兵慌码乱8 小时前
基于 MediaPipe 与 PySide2 的手势交互音乐控制系统实现:轻量化视觉交互全流程解析
python·opencv·计算机视觉·人机交互·手势识别·mediapipe·pyside2
luckdewei11 小时前
FastAPI 资产管理系统实战:复杂 ORM 关联、Alembic 迁移与 N+1 查询优化
python
aqi0017 小时前
15天学会AI应用开发(八)使用向量数据库实现RAG功能
人工智能·python·大模型·ai编程·ai应用
Csvn18 小时前
`functools.lru_cache` —— 一行代码搞定缓存加速
后端·python
JieE2121 天前
LeetCode 101. 对称二叉树|JS 递归 + 迭代双解法,彻底搞懂镜像判断
javascript·算法
金銀銅鐵1 天前
[Python] 从《千字文》中随机挑选汉字
后端·python
cup112 天前
[技术复盘] Windows Python 打包实战:Nuitka 环境踩坑总结与 CI 自动化构建全指南
python·ai·环境变量·ci·nuitka·skill
aqi002 天前
15天学会AI应用开发(七)有了大模型为什么还要引入RAG
人工智能·python·大模型·ai编程·ai应用