【集成学习】因果推断详解

集成学习与因果推断详解（原理+实战+对比）

本文面向本科、研究生阶段学习者，用通俗易懂的语言讲解因果推断的核心概念、数学原理、完整算法流程，结合模拟数据实现从数据生成到因果效应估计的全流程实战，并对比不同因果推断方法的优劣，明确适用场景。内容从入门到进阶，可直接用于课程设计、学术研究和实际业务决策（如医疗效果评估、广告归因、政策影响分析）。

一、因果推断：通俗理解核心概念

因果推断是研究"为什么事情会发生"的科学方法，核心是区分"相关性"和"因果性"------前者是表面关联，后者是真正的"因果关系"（A导致B）。

用生活案例秒懂：

相关性：冰淇淋销量和溺水事件同时增加。但这不是因果关系，背后的共同原因是"夏天天气热"（大家爱吃冰淇淋，也爱游泳）；
因果性："吃药"导致"病情好转"、"跑步"导致"体重下降"------前者是后者的直接原因，排除了其他干扰因素。

为什么需要因果推断？

现实中我们经常需要判断"干预"的真实效果，仅看相关性容易被误导：

医疗场景：某种新药真的能治病，还是吃新药的患者本来身体就好？
商业场景：提高广告预算真的能增加销量，还是投放广告时正好是销售旺季？
政策场景：补贴政策真的能促进消费，还是领取补贴的人本来消费意愿就强？

因果推断的核心目标：排除混淆因素干扰，量化"干预"（如吃药、投广告）对"结果"（如病情、销量）的真实影响。

因果推断的核心思路

提出因果假设：比如"每天跑步30分钟会让体重下降"；
收集数据：记录跑步情况（干预变量）、体重变化（结果变量），以及可能的干扰因素（如饮食、睡眠、年龄）；
控制混淆因素：通过统计方法消除干扰因素的影响；
量化因果效应：判断跑步本身是否真的导致体重下降，以及下降多少。

二、因果推断核心原理详解

因果推断的数学基础是潜在结果框架（Rubin因果模型） 和结构方程模型（SEM），以下用简化的语言和公式拆解核心原理，本科阶段即可理解。

2.1 潜在结果框架（核心基础）

潜在结果框架是因果推断的核心工具，核心思想是：对每个个体，存在两种"潜在结果"，我们只能观察到其中一种。

关键定义

处理变量（T）：我们关注的"干预"（如吃药=1，不吃药=0；跑步=1，不跑步=0）；
结果变量（Y）：干预带来的结果（如病情好转=1，未好转=0；体重变化值）；
潜在结果 ：
- (Y_i(1))：个体i接受干预（T=1）后的潜在结果；
- (Y_i(0))：个体i不接受干预（T=0）后的潜在结果；
个体因果效应（ITE） ：干预对个体i的真实影响：
τi=Yi(1)−Yi(0)\tau_i = Y_i(1) - Y_i(0)τi=Yi(1)−Yi(0)
平均处理效应（ATE） ：干预对所有个体的平均影响（核心估计目标）：
ATE=E[Y(1)−Y(0)]ATE = \mathbb{E}[Y(1) - Y(0)]ATE=E[Y(1)−Y(0)]

核心问题：反事实难题

每个个体只能观察到一种结果（要么接受干预，要么不接受），无法同时看到"干预"和"不干预"的两种状态------这就是"反事实难题"，也是因果推断的核心挑战。

例如：一个人选择跑步（T=1），我们只能看到他跑步后的体重（Y_i(1)），无法知道他不跑步时的体重（Y_i(0)），反之亦然。

2.2 关键假设：条件独立假设（CIA）

为了解决反事实难题，我们需要一个核心假设------条件独立假设 ：
Y(0),Y(1)⊥T∣XY(0), Y(1) \perp T \mid XY(0),Y(1)⊥T∣X

通俗解释：在控制了协变量X（如年龄、饮食、睡眠）后，"是否接受干预（T）"与"潜在结果（Y(0)、Y(1)）"是独立的；
核心意义：保证处理组和对照组在协变量X上的分布一致，此时两组的结果差异就是"纯因果效应"，而非混淆因素导致的差异。

2.3 倾向得分（Propensity Score）

倾向得分是因果推断的核心工具，用于量化"个体接受干预的概率"，解决处理组和对照组的"不平衡"问题。

定义

倾向得分(e(X))：给定协变量X时，个体接受干预（T=1）的概率：
e(X)=P(T=1∣X)e(X) = P(T=1 \mid X)e(X)=P(T=1∣X)

核心用途

倾向得分的核心性质：在倾向得分相同的条件下，处理T与潜在结果独立------即"同倾向得分的个体，接受干预与否是随机的"，可以直接比较他们的结果差异。

2.4 常用因果效应估计方法

有了倾向得分和条件独立假设，我们可以通过以下方法估计因果效应，重点介绍3种最常用的方法：

1. 逆概率加权（IPW）

核心思路：给每个样本分配权重，抵消处理组和对照组的协变量分布差异------接受干预概率低的样本权重高，概率高的样本权重低。

ATE估计公式 ：
ATE=E[T⋅Ye(X)−(1−T)⋅Y1−e(X)]ATE = \mathbb{E}\left[ \frac{T \cdot Y}{e(X)} - \frac{(1-T) \cdot Y}{1-e(X)} \right]ATE=E[e(X)T⋅Y−1−e(X)(1−T)⋅Y]

通俗解释：用倾向得分的倒数作为权重，让处理组和对照组在协变量上"虚拟平衡"，再计算两组的加权平均结果差异。

2. 回归调整法

核心思路：用回归模型（可是线性回归、随机森林等）控制协变量X的影响，直接建模"干预T"对"结果Y"的影响。

建模公式 ：
Y^=β0+βT⋅T+βX⋅X\hat{Y} = \beta_0 + \beta_T \cdot T + \beta_X \cdot XY^=β0+βT⋅T+βX⋅X

因果效应：βT\beta_TβT就是干预T对Y的平均因果效应（ATE）；
进阶：用机器学习模型（如随机森林）预测潜在结果Y(1)Y(1)Y(1)和Y(0)Y(0)Y(0)，则个体因果效应CATEi=Y^i(1)−Y^i(0)CATE_i = \hat{Y}_i(1) - \hat{Y}_i(0)CATEi=Y^i(1)−Y^i(0)，ATE是所有CATE的平均值。

3. 双重稳健法（DR）

核心思路：结合逆概率加权和回归调整，只要其中一种方法的模型假设成立，估计结果就是无偏的，鲁棒性更强。

ATE估计公式 ：
DR_ATE=E[Y^(1)−Y^(0)+T⋅(Y−Y^(1))e(X)−(1−T)⋅(Y−Y^(0))1−e(X)]DR\_ATE = \mathbb{E}\left[ \hat{Y}(1) - \hat{Y}(0) + \frac{T \cdot (Y - \hat{Y}(1))}{e(X)} - \frac{(1-T) \cdot (Y - \hat{Y}(0))}{1-e(X)} \right]DR_ATE=E[Y^(1)−Y^(0)+e(X)T⋅(Y−Y^(1))−1−e(X)(1−T)⋅(Y−Y^(0))]

通俗解释：先用回归模型预测潜在结果，再用倾向得分加权修正预测残差，兼顾两种方法的优势。

2.5 条件平均处理效应（CATE）

除了整体的ATE，我们还关注"不同人群的干预效果是否不同"------这就是条件平均处理效应（CATE）：
CATE(X=x)=E[Y(1)−Y(0)∣X=x]CATE(X=x) = \mathbb{E}[Y(1) - Y(0) \mid X=x]CATE(X=x)=E[Y(1)−Y(0)∣X=x]

通俗解释：在特征X=x的人群中（如"20-30岁、饮食健康的人"），干预的平均效果；
核心价值：支持个性化决策（如"对20-30岁人群，跑步的减肥效果更明显"）。

2.6 因果图与do-运算

因果图（DAG）是可视化因果关系的工具，帮助我们识别混淆变量和调整策略：

节点：变量（处理T、结果Y、协变量X、混淆变量Z）；
有向边：因果关系（如Z→T表示Z影响是否接受干预，Z→Y表示Z影响结果）。

do-运算（干预操作）

因果推断中的核心操作是"do-运算"，表示"强制干预"，与普通的条件概率不同：

P(Y∣T=1)P(Y \mid T=1)P(Y∣T=1)：观察到"接受干预"的人，结果Y的概率（可能包含混淆因素）；
P(Y∣do(T=1))P(Y \mid do(T=1))P(Y∣do(T=1))：强制让所有人接受干预，结果Y的概率（排除了混淆因素，是真实因果效应）。

调整公式

如果我们控制了所有混淆变量X，那么：
P(Y∣do(T=1))=∑xP(Y∣T=1,X=x)⋅P(X=x)P(Y \mid do(T=1)) = \sum_x P(Y \mid T=1, X=x) \cdot P(X=x)P(Y∣do(T=1))=x∑P(Y∣T=1,X=x)⋅P(X=x)

通俗解释：在每个X的分组内计算干预效果，再按X的分布加权平均，得到真实因果效应。

2.7 因果推断完整算法流程

整合上述原理，因果推断的标准化流程如下，可直接对应代码实现：

数据准备：收集处理变量T、结果变量Y、协变量X（含混淆变量）；
因果假设与因果图：构建DAG，识别需要控制的混淆变量；
倾向得分估计 ：用逻辑回归、机器学习模型估计倾向得分e(X)e(X)e(X)；
因果效应估计：选择IPW、回归调整、双重稳健法等估计ATE/CATE；
假设验证 ：
- 平衡性检验：检查加权/匹配后，处理组和对照组的协变量分布是否一致；
- 敏感性分析：评估未观测混淆变量对结果的影响；
结果解释：分析ATE/CATE的物理意义，支持决策。

三、因果推断实战：模拟数据因果效应估计（Python代码可直接运行）

以"跑步对体重的影响"为场景，生成模拟数据，实现倾向得分估计、IPW、回归调整、双重稳健法的完整流程，代码注释详细，本科/研究生可直接复现。

3.1 环境准备

需要的Python库均为常用库，提前安装即可：

bash 复制代码

pip install numpy pandas matplotlib seaborn scikit-learn

3.2 完整实战代码

python 复制代码

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split

# 设置随机种子，保证结果可复现
np.random.seed(42)

# ---------------------- 1. 生成模拟数据（跑步对体重的影响） ----------------------
N = 1000  # 样本量
# 协变量：X1（年龄，正态分布）、X2（初始体重，正态分布）、Z（混淆变量：健康意识，0/1）
X1 = np.random.normal(30, 5, N)  # 年龄：30±5岁
X2 = np.random.normal(65, 10, N) # 初始体重：65±10kg
Z = np.random.binomial(1, 0.5, N) # 健康意识：50%概率为1（更爱跑步、饮食健康）

# 处理变量T（是否跑步）：健康意识Z和年龄X1影响跑步概率
logit_T = 0.3 * X1 - 0.05 * X2 + 0.8 * Z  # 健康意识越强、年龄越小，跑步概率越高
p_T = 1 / (1 + np.exp(-logit_T))  # 逻辑回归转换为概率
T = np.random.binomial(1, p_T)  # 生成处理变量（0=不跑步，1=跑步）

# 结果变量Y（体重变化：负值表示体重下降）
# 真实因果效应：跑步（T=1）让体重多下降3kg（ATE=3）
Y0 = 2 - 0.1 * X1 + 0.03 * X2 - 0.5 * Z + np.random.normal(0, 1, N)  # 不跑步的体重变化
Y1 = Y0 - 3  # 跑步的体重变化（多下降3kg）
Y = T * Y1 + (1 - T) * Y0  # 观测到的体重变化

# 构建数据集
data = pd.DataFrame({
    '年龄(X1)': X1,
    '初始体重(X2)': X2,
    '健康意识(Z)': Z,
    '是否跑步(T)': T,
    '体重变化(Y)': Y
})

# ---------------------- 2. 探索性数据分析（EDA） ----------------------
print("="*60)
print("数据集基本信息")
print("="*60)
print(f"样本量：{N}")
print(f"处理组（跑步）样本数：{data['是否跑步(T)'].sum()}")
print(f"对照组（不跑步）样本数：{N - data['是否跑步(T)'].sum()}")
print("\n数据集前5行：")
print(data.head())

# 2.1 协变量在处理组/对照组的分布（以年龄X1为例）
plt.figure(figsize=(10, 6))
sns.histplot(data=data, x='年龄(X1)', hue='是否跑步(T)', bins=30, 
             palette='bright', kde=True, multiple='stack')
plt.title('年龄在处理组（跑步）和对照组（不跑步）的分布', fontsize=14)
plt.xlabel('年龄', fontsize=12)
plt.ylabel('频数', fontsize=12)
plt.show()

# 2.2 结果变量在处理组/对照组的分布
plt.figure(figsize=(10, 6))
sns.histplot(data=data, x='体重变化(Y)', hue='是否跑步(T)', bins=30, 
             palette='Set2', kde=True, multiple='stack')
plt.title('体重变化在处理组（跑步）和对照组（不跑步）的分布', fontsize=14)
plt.xlabel('体重变化（kg）', fontsize=12)
plt.ylabel('频数', fontsize=12)
plt.show()

# ---------------------- 3. 倾向得分估计（逻辑回归） ----------------------
print("\n="*60)
print("倾向得分估计")
print("="*60)
# 协变量：年龄、初始体重、健康意识（控制混淆变量）
X_cov = data[['年龄(X1)', '初始体重(X2)', '健康意识(Z)']]
y_treat = data['是否跑步(T)']

# 用逻辑回归估计倾向得分（接受干预的概率）
prop_model = LogisticRegression(max_iter=1000)
prop_model.fit(X_cov, y_treat)
data['倾向得分(e(X))'] = prop_model.predict_proba(X_cov)[:, 1]  # 取T=1的概率

# 可视化倾向得分分布
plt.figure(figsize=(10, 6))
sns.kdeplot(data=data[data['是否跑步(T)']==1], x='倾向得分(e(X))', 
            fill=True, color='orange', label='处理组（跑步）')
sns.kdeplot(data=data[data['是否跑步(T)']==0], x='倾向得分(e(X))', 
            fill=True, color='blue', label='对照组（不跑步）')
plt.title('倾向得分分布', fontsize=14)
plt.xlabel('倾向得分（接受跑步的概率）', fontsize=12)
plt.ylabel('密度', fontsize=12)
plt.legend()
plt.show()

# ---------------------- 4. 因果效应估计（3种方法） ----------------------
print("\n="*60)
print("因果效应估计结果（真实ATE=3）")
print("="*60)

# 4.1 逆概率加权法（IPW）估计ATE
data['权重'] = data['是否跑步(T)'] / data['倾向得分(e(X))'] + (1 - data['是否跑步(T)']) / (1 - data['倾向得分(e(X))'])
# IPW估计ATE：加权后的处理组均值 - 加权后的对照组均值
ate_ipw = (data['权重'] * data['是否跑步(T)'] * data['体重变化(Y)']).sum() / data['权重'].sum() - \
          (data['权重'] * (1 - data['是否跑步(T)']) * data['体重变化(Y)']).sum() / data['权重'].sum()
# 注意：体重变化Y中，跑步组多下降3kg（Y1=Y0-3），所以ATE的绝对值应为3，符号为负（体重下降）
print(f"逆概率加权法（IPW）估计ATE：{abs(ate_ipw):.3f} kg（体重多下降）")

# 4.2 回归调整法估计ATE/CATE
# 用随机森林预测潜在结果Y(1)和Y(0)
reg_model = RandomForestRegressor(n_estimators=100, random_state=42)
# 特征：协变量 + 处理变量
X_reg = pd.concat([X_cov, data['是否跑步(T)']], axis=1)
reg_model.fit(X_reg, data['体重变化(Y)'])

# 预测所有样本的Y(1)（强制跑步）和Y(0)（强制不跑步）
X_reg_1 = pd.concat([X_cov, pd.DataFrame({'是否跑步(T)': np.ones(N)})], axis=1)
X_reg_0 = pd.concat([X_cov, pd.DataFrame({'是否跑步(T)': np.zeros(N)})], axis=1)
data['Y1_pred'] = reg_model.predict(X_reg_1)  # 预测潜在结果Y(1)
data['Y0_pred'] = reg_model.predict(X_reg_0)  # 预测潜在结果Y(0)

# 计算CATE和ATE
data['CATE'] = data['Y0_pred'] - data['Y1_pred']  # 跑步比不跑步多下降的体重（正值）
ate_reg = data['CATE'].mean()
print(f"回归调整法估计ATE：{ate_reg:.3f} kg（体重多下降）")

# 可视化CATE分布（个体因果效应异质性）
plt.figure(figsize=(10, 6))
sns.histplot(data['CATE'], bins=30, color='purple', kde=True)
plt.title('个体因果效应（CATE）分布', fontsize=14)
plt.xlabel('CATE（跑步比不跑步多下降的体重kg）', fontsize=12)
plt.ylabel('频数', fontsize=12)
plt.show()

# 4.3 双重稳健法（DR）估计ATE
# 计算残差：观测值 - 回归预测值
data['残差'] = data['体重变化(Y)'] - (data['是否跑步(T)'] * data['Y1_pred'] + (1 - data['是否跑步(T)']) * data['Y0_pred'])
# 双重稳健估计
dr_ate = np.mean(
    data['CATE'] + 
    data['是否跑步(T)'] * data['残差'] / data['倾向得分(e(X))'] - 
    (1 - data['是否跑步(T)']) * data['残差'] / (1 - data['倾向得分(e(X))'])
)
print(f"双重稳健法估计ATE：{dr_ate:.3f} kg（体重多下降）")

# ---------------------- 5. 分组CATE分析（异质性因果效应） ----------------------
print("\n="*60)
print("分组CATE分析（异质性因果效应）")
print("="*60)
# 按健康意识分组，计算CATE
cate_by_z = data.groupby('健康意识(Z)')['CATE'].mean()
print(f"健康意识=0（不爱健康）的人群CATE：{cate_by_z[0]:.3f} kg")
print(f"健康意识=1（注重健康）的人群CATE：{cate_by_z[1]:.3f} kg")

# 可视化分组CATE
plt.figure(figsize=(8, 6))
sns.barplot(x=['健康意识=0', '健康意识=1'], y=[cate_by_z[0], cate_by_z[1]], palette='viridis')
plt.title('不同健康意识人群的平均因果效应（CATE）', fontsize=14)
plt.ylabel('CATE（跑步比不跑步多下降的体重kg）', fontsize=12)
plt.show()

3.3 实战关键步骤解读

数据生成：模拟了"跑步对体重的影响"，包含协变量、混淆变量（健康意识），真实ATE=3kg（跑步比不跑步多下降3kg），贴近真实场景；
探索性分析：通过分布直方图，观察处理组和对照组的协变量、结果变量分布差异，初步识别混淆因素；
倾向得分估计：用逻辑回归估计每个样本"接受干预（跑步）的概率"，为后续加权做准备；
因果效应估计 ：
- IPW：通过倾向得分加权，让处理组和对照组在协变量上平衡，估计ATE；
- 回归调整：用随机森林预测潜在结果，不仅能估计ATE，还能得到个体层面的CATE（异质性效应）；
- 双重稳健法：结合前两种方法，鲁棒性更强，即使一种模型假设不成立，结果仍可能无偏；
异质性分析：按健康意识分组计算CATE，发现"注重健康的人群，跑步的减肥效果更明显"，支持个性化决策。

3.4 实战核心结论

三种方法估计的ATE均接近真实值（3kg），验证了方法的有效性；
双重稳健法的估计结果最稳定，是实际场景中的优选方法；
CATE分析能揭示"不同人群的干预效果差异"，比ATE更具决策价值（如针对"健康意识弱"的人群推广跑步，效果提升更明显）。

四、因果推断的优缺点分析

结合原理和实战，总结因果推断的核心优缺点，帮助本科/研究生理解其适用场景和局限性：

优点

量化真实因果效应：突破了传统相关性分析的局限，能排除混淆因素，得到"干预"的真实影响，支持科学决策；
支持异质性分析：通过CATE能分析不同人群的干预效果差异，为个性化决策提供依据（如精准医疗、定向广告）；
兼容性强：可与机器学习模型（随机森林、神经网络）结合，处理非线性关系和复杂特征交互；
无需随机实验：在无法进行随机对照试验（RCT）的场景（如伦理限制、成本过高），能通过观测数据估计因果效应；
鲁棒性方法多：双重稳健法、敏感性分析等工具能降低模型假设不成立带来的偏差。

缺点

对混淆变量敏感：若存在未观测到的重要混淆变量，因果估计结果会有偏，且无法通过数据验证；
模型依赖度高：倾向得分模型或回归模型的准确性直接影响估计结果，模型选择不当会导致偏差；
数据要求高：需要足够的样本量，尤其是在异质性分析中，样本不足会导致CATE估计不稳定；
可解释性较弱：当使用复杂机器学习模型（如神经网络）时，因果效应的来源难以解释，不如线性模型直观；
假设无法验证：核心的条件独立假设无法通过观测数据直接验证，只能通过平衡性检验间接判断。

五、因果推断方法对比与选型

将常用的因果推断方法（IPW、回归调整、双重稳健法、匹配法、RCT）做全面对比，从"优点、缺点、适用场景"三个维度梳理，方便快速选型：

方法名称	核心优点	核心缺点	适用场景
逆概率加权（IPW）	实现简单；不依赖结果变量模型；能处理高维协变量	对倾向得分模型敏感；极端权重可能导致方差过大	样本量大、协变量信息完整；倾向得分模型易拟合
回归调整法	能处理非线性关系；可同时估计ATE和CATE；对样本量要求较低	依赖结果变量模型；模型不准确时偏差较大	协变量与结果关系复杂；需要异质性分析（CATE）
双重稳健法（DR）	鲁棒性强（任一模型正确即无偏）；兼顾加权和回归优势	实现稍复杂；计算量略大	不确定倾向得分或回归模型的准确性；对估计稳定性要求高
匹配法（Matching）	直观易懂；无需复杂公式；易解释	可能丢失样本（倾向得分重叠差）；效率低；不适合高维协变量	样本量适中；倾向得分重叠良好；对可解释性要求高
随机对照试验（RCT）	因果推断金标准；无混淆变量；结果无偏	实施成本高；伦理限制；耗时久	可随机分配干预（如新药临床试验）；对因果效应准确性要求极高

选型核心建议

优先选双重稳健法：在大多数观测数据场景下，双重稳健法的鲁棒性最强，是优选方案；
样本量小、重叠好：选匹配法（如最近邻匹配），避免样本浪费；
高维协变量、非线性：选回归调整法（结合随机森林、XGBoost）；
可随机化：优先选RCT，无需复杂的统计调整，结果最可靠；
倾向得分易拟合、样本大：选IPW，实现简单，计算高效。

六、总结与拓展学习

核心总结

因果推断是从"相关性"到"因果性"的关键工具，核心是通过潜在结果框架和统计方法，排除混淆因素干扰，量化干预的真实影响，是数据科学、经济学、医学等领域的必备技能。

学习因果推断的关键要点：

理解相关性≠因果性：核心是区分"表面关联"和"真实因果"，避免被数据误导；
掌握潜在结果框架：理解反事实难题和条件独立假设，这是所有因果推断方法的基础；
实战重点：倾向得分估计、IPW/双重稳健法的实现、CATE异质性分析；
选型核心：根据样本量、模型准确性、可解释性要求，选择合适的估计方法；
注意局限：因果推断依赖假设，需通过平衡性检验、敏感性分析验证结果可靠性。

拓展学习方向

高级因果推断方法：如合成控制法（适用于政策评估）、断点回归（适用于自然实验）、工具变量法（处理未观测混淆）；
机器学习与因果推断结合：如因果森林（Causal Forest）、双重机器学习（Double Machine Learning），专门用于处理复杂数据和异质性分析；
因果推断软件工具：学习使用DoWhy、EconML等专门的因果推断库，简化实现流程；
实际应用场景：深入学习医疗效果评估、广告归因、政策影响分析、推荐系统因果推断等具体场景的应用；
理论深化：学习Pearl的因果图理论、潜在结果框架的严格数学证明，提升理论功底。

附：因果推断实战技巧

混淆变量识别：通过领域知识和因果图，尽可能全面地收集混淆变量，避免遗漏重要变量导致偏差；
平衡性检验：加权/匹配后，必须检查处理组和对照组的协变量分布是否一致（如均值、方差无显著差异）；
敏感性分析：通过改变假设（如增加未观测混淆变量的影响），验证结果的稳定性；
CATE可视化：通过直方图、分组柱状图展示CATE分布，直观呈现异质性；
模型选择：倾向得分模型优先选简单模型（如逻辑回归），避免过拟合；结果变量模型可选复杂机器学习模型，提升预测准确性。