StackingClassifier参数详解与示例

StackingClassifier是一种集成学习方法，通过组合多个基分类器的预测结果作为元分类器的输入特征，从而提高整体模型性能。以下是关键参数的详细说明和示例：

1. classifiers（基分类器）

作用：定义Stacking的底层分类器集合
格式：列表形式 [clf1, clf2, ..., clfn]
要求：基分类器必须实现 fit 和 predict/predict_proba 方法
存储位置 ：训练后存储在 self.clfs_ 属性中

2. meta_classifier（元分类器）

作用：组合基分类器输出的最终分类器
典型选择：逻辑回归、SVM等简单强分类器
输入特征：由基分类器的输出（标签或概率）构成

3. use_probas参数

默认值 ：False
True时的行为 ：
- 基分类器输出概率向量而非类别标签
- 元分类器使用概率值作为输入特征
- 需配合 predict_proba 方法使用
False时的行为：直接使用基分类器的预测类别标签

4. average_probas参数

生效条件 ：仅当 use_probas=True 时有效
True：对基分类器的概率输出取平均值
False：拼接所有基分类器的概率向量
示例（二分类问题）：
- 基分类器1输出概率：[0.2,0.8][0.2, 0.8][0.2,0.8]
- 基分类器2输出概率：[0.3,0.7][0.3, 0.7][0.3,0.7]
- average_probas=True → 元特征：[0.25,0.75][0.25, 0.75][0.25,0.75]
- average_probas=False → 元特征：[0.2,0.8,0.3,0.7][0.2, 0.8, 0.3, 0.7][0.2,0.8,0.3,0.7]

代码示例

python 复制代码

from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from mlxtend.classifier import StackingClassifier

# 1. 定义基分类器
clf1 = RandomForestClassifier(n_estimators=100)
clf2 = GaussianNB()

# 2. 定义元分类器
meta_clf = LogisticRegression()

# 3. 创建Stacking模型（使用概率输出）
stacking_clf = StackingClassifier(
    classifiers=[clf1, clf2],
    meta_classifier=meta_clf,
    use_probas=True,          # 使用概率作为元特征
    average_probas=False,     # 拼接概率向量
    verbose=1
)

# 4. 训练与预测
stacking_clf.fit(X_train, y_train)
probas = stacking_clf.predict_proba(X_test)

参数选择建议

use_probas=True 适用场景：
- 基分类器输出概率置信度差异较大时
- 需要保留概率分布信息（如医疗诊断）
- 元分类器能有效处理高维特征
use_probas=False 适用场景：
- 基分类器预测质量相近
- 数据集维度需要控制
- 元分类器对类别标签敏感（如决策树）
classifiers选择原则：
- 多样性优于单个模型精度
- 典型组合：树模型（RF/XGBoost）+ 线性模型（LR）+ 概率模型（Naive Bayes）

注意：当 use_features_in_secondary=True 时，元分类器会同时使用原始特征和基分类器的输出，可能增加过拟合风险。