基于Stacking集成学习的乙型肝炎预测模型：从数据到部署的完整实践

前言

乙型肝炎是一种严重的传染性疾病，早期诊断对患者的治疗和预后至关重要。随着机器学习技术的快速发展，利用算法辅助医疗诊断已成为研究热点。本文将详细介绍如何使用Stacking集成学习方法构建一个高效的乙型肝炎预测模型。

一、项目背景与目标

1.1 研究背景

肝病，特别是乙型肝炎，是全球性的健康问题。传统的诊断方法主要依赖于医生的经验和各种生化指标的综合分析。然而，这种方法存在主观性强、诊断时间长等问题。机器学习技术能够从大量历史数据中学习规律，为临床诊断提供客观、快速的辅助工具。

1.2 项目目标

本项目旨在构建一个准确、可靠的乙型肝炎预测模型，主要目标包括：

利用患者的多项生化指标预测肝病风险
通过集成学习提高模型的预测准确性和稳定性
识别影响肝病诊断的关键指标

二、数据集介绍

2.1 数据来源

本项目使用的是Indian Liver Patient Dataset（印度肝病患者数据集），该数据集来自UCI机器学习数据库，包含了印度安得拉邦阿波罗医院收集的583个患者记录。

2.2 数据特征

数据集包含以下11个特征：

特征名称	英文名称	类型	说明
年龄	Age	数值型	患者年龄
性别	Gender	分类型	Male/Female
总胆红素	Total_Bilirubin	数值型	肝功能指标
直接胆红素	Direct_Bilirubin	数值型	胆红素类型
碱性磷酸酶	Alkaline_Phosphotase	数值型	肝酶指标
丙氨酸转氨酶	Alamine_Aminotransferase	数值型	ALT，肝损伤指标
天冬氨酸转氨酶	Aspartate_Aminotransferase	数值型	AST，肝损伤指标
总蛋白	Total_Protiens	数值型	血液蛋白总量
白蛋白	Albumin	数值型	血液蛋白类型
A/G比值	Albumin_and_Globulin_Ratio	数值型	白蛋白/球蛋白比率
类别	Dataset	目标变量	1=肝病患者，2=非肝病患者

2.3 数据探索

python 复制代码

# 数据基本信息
数据形状: (583, 11)
缺失值情况: 部分特征存在少量缺失值
类别分布: 肝病患者 vs 非肝病患者（存在类别不平衡）

三、技术方案设计

3.1 集成学习策略选择

本项目采用**Stacking（堆叠集成）**方法，这是一种分层集成策略：

第一层（Base Models）：多个异质基础模型并行训练
第二层（Meta Model）：元模型学习如何组合基础模型的预测结果

Stacking的优势：

能够整合不同算法的优势
通过元学习器自动学习最优组合方式
通常比单一模型或简单平均效果更好

3.2 模型架构设计

基础模型选择

我们选择了8个不同特性的基础模型：

随机森林（Random Forest）
- 优点：处理非线性关系，对异常值鲁棒
- 参数：n_estimators=200, max_depth=10
梯度提升树（GBDT）
- 优点：逐步优化预测误差
- 参数：n_estimators=200, learning_rate=0.1
XGBoost
- 优点：高效实现，支持正则化
- 参数：n_estimators=200, max_depth=5
LightGBM
- 优点：训练速度快，内存占用少
- 参数：n_estimators=200, num_leaves=31
CatBoost
- 优点：自动处理类别特征
- 参数：iterations=200, depth=5
支持向量机（SVM）
- 优点：在高维空间表现好
- 参数：C=1.0, kernel='rbf'
K近邻（KNN）
- 优点：简单直观，捕捉局部模式
- 参数：n_neighbors=5
逻辑回归（Logistic Regression）
- 优点：可解释性强，线性关系建模
- 参数：C=1.0, max_iter=1000

元学习器

使用XGBoost作为元学习器，整合所有基础模型的预测概率作为特征。

四、数据预处理详解

4.1 数据清洗

python 复制代码

def clean_data(self, data):
    """数据清洗"""
    # 1. 缺失值处理
    # 数值型特征：使用中位数填充
    # 分类特征：使用众数填充
    
    # 2. 异常值处理
    # 使用IQR方法（四分位距）检测异常值
    Q1 = data[column].quantile(0.25)
    Q3 = data[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    data[column] = data[column].clip(lower_bound, upper_bound)

4.2 特征工程

特征工程是提升模型性能的关键环节，我们创建了以下类型的特征：

4.2.1 比率特征

python 复制代码

# 胆红素比率
data['Bilirubin_Ratio'] = data['Direct_Bilirubin'] / data['Total_Bilirubin']

# 酶活性比率
data['Enzyme_Ratio'] = data['Alamine_Aminotransferase'] / data['Aspartate_Aminotransferase']

# A/G比值（原始特征，但可以创建相关比率）
data['Albumin_Total_Ratio'] = data['Albumin'] / data['Total_Protiens']

这些比率特征具有重要的医学意义，能够更好地反映肝功能的综合状况。

4.2.2 复合特征

python 复制代码

# 酶相关复合特征
data['Enzyme_Sum'] = ALT + AST
data['Enzyme_Diff'] = |ALT - AST|
data['Enzyme_Product'] = ALT * AST

# 年龄相关的复合特征
data['Age_Bilirubin'] = Age * Total_Bilirubin
data['Age_Albumin'] = Age * Albumin

复合特征能够捕捉多个原始特征之间的交互关系。

4.2.3 分组特征

python 复制代码

# 年龄分组
data['Age_Group'] = pd.cut(Age, bins=[0, 30, 40, 50, 60, 100], 
                           labels=[0, 1, 2, 3, 4])

# 性别编码
data['Gender'] = (Gender == 'Male').astype(int)

4.3 特征选择

经过特征工程后，特征维度可能非常高。我们使用以下方法进行特征选择：

基于随机森林的特征重要性

python 复制代码

rf = RandomForestClassifier(n_estimators=200)
rf.fit(X, y)
importance = rf.feature_importances_
# 保留重要性大于平均值的特征

递归特征消除（RFE）

python 复制代码

rfe = RFE(estimator=RandomForestClassifier(), 
          n_features_to_select=10)
X_selected = rfe.fit_transform(X, y)

PCA降维

python 复制代码

pca = PCA(n_components=0.95)  # 保留95%的方差
X_pca = pca.fit_transform(X_poly)

4.4 类别平衡处理

由于数据集存在类别不平衡问题，我们使用SMOTE（Synthetic Minority Oversampling Technique）进行过采样：

python 复制代码

from imblearn.over_sampling import SMOTE

smote = SMOTE(sampling_strategy=0.8, random_state=42)
X_resampled, y_resampled = smote.fit_resample(X_train, y_train)

五、模型实现

5.1 Stacking模型实现

python 复制代码

class StackingModel:
    def __init__(self, base_models=None, meta_model=None):
        # 初始化基础模型列表
        self.base_models = base_models or [...]
        # 初始化元模型
        self.meta_model = meta_model or XGBClassifier()
    
    def fit(self, X, y):
        # 1. 训练所有基础模型
        for name, model in self.base_models:
            model.fit(X, y)
        
        # 2. 获取基础模型的预测作为元特征
        meta_features = []
        for model in self.base_models:
            pred_proba = model.predict_proba(X)[:, 1]
            meta_features.append(pred_proba)
        
        # 3. 训练元模型
        meta_X = np.column_stack(meta_features)
        self.meta_model.fit(meta_X, y)
    
    def predict(self, X):
        # 1. 获取基础模型预测
        meta_features = []
        for model in self.base_models:
            pred_proba = model.predict_proba(X)[:, 1]
            meta_features.append(pred_proba)
        
        # 2. 使用元模型预测
        meta_X = np.column_stack(meta_features)
        return self.meta_model.predict(meta_X)

5.2 加权平均融合模型

除了Stacking，我们还实现了加权平均融合方法：

python 复制代码

class WeightedAveragingModel:
    def fit(self, X, y):
        # 训练多个基础模型
        for model_class in model_classes:
            model = model_class(**params)
            model.fit(X_resampled, y_resampled)
            self.fitted_models.append(model)
        
        # 基于交叉验证分数计算权重
        weights = []
        for model in self.fitted_models:
            scores = cross_val_score(model, X, y, cv=5, scoring='f1')
            weights.append(scores.mean())
        
        self.weights = np.array(weights) / np.sum(weights)
    
    def predict_proba(self, X):
        # 加权平均各模型的预测概率
        probas = [model.predict_proba(X) for model in self.fitted_models]
        weighted_proba = np.average(probas, axis=0, weights=self.weights)
        return weighted_proba

六、模型训练与评估

6.1 训练流程

python 复制代码

def main():
    # 1. 加载数据
    preprocessor = DataPreprocessor()
    data = preprocessor.load_data("indian_liver_patient.csv")
    
    # 2. 数据预处理
    data = preprocessor.clean_data(data)
    processed_data = preprocessor.prepare_data(data)
    
    # 3. 训练Stacking模型
    model = StackingModel()
    model.fit(X_train, y_train)
    
    # 4. 评估模型
    y_pred = model.predict(X_test)
    metrics = evaluate_model(y_test, y_pred)

6.2 评估指标

我们使用多种指标全面评估模型性能：

python 复制代码

from sklearn.metrics import (
    accuracy_score,      # 准确率
    precision_score,     # 精确率
    recall_score,        # 召回率
    f1_score,           # F1分数
    roc_auc_score       # AUC值
)

metrics = {
    'accuracy': accuracy_score(y_test, y_pred),
    'precision': precision_score(y_test, y_pred),
    'recall': recall_score(y_test, y_pred),
    'f1': f1_score(y_test, y_pred),
    'auc': roc_auc_score(y_test, y_pred_proba)
}

6.3 结果分析

测试集性能：

准确率：60.68%
精确率：36.96%
召回率：50.00%
F1分数：42.50%
AUC值：65.49%

交叉验证性能：

准确率：69.53%
精确率：47.64%
召回率：63.93%
F1分数：54.38%
AUC值：75.57%

从结果可以看出：

交叉验证性能优于测试集，说明模型具有一定的泛化能力
AUC值达到75.57%，表明模型具有一定的区分能力
召回率63.93%，说明模型能够识别出大部分肝病患者

6.4 特征重要性分析

根据特征重要性排序，影响肝病预测的关键特征：

碱性磷酸酶（Alkaline_Phosphotase）：14.48%
天冬氨酸转氨酶（AST）：13.90%
年龄（Age）：13.11%
丙氨酸转氨酶（ALT）：12.61%
总胆红素（Total_Bilirubin）：10.06%

这个结果与医学常识相符：转氨酶（ALT、AST）和胆红素是肝功能检查的重要指标。

七、可视化分析

7.1 特征重要性图

python 复制代码

def plot_feature_importance(importance_df, top_n=10):
    plt.figure(figsize=(10, 6))
    sns.barplot(x='importance', y='feature', 
                data=importance_df.head(top_n))
    plt.title(f'Top {top_n} 特征重要性')
    plt.xlabel('重要性')
    plt.ylabel('特征')
    plt.tight_layout()
    plt.savefig('feature_importance.png')

7.2 ROC曲线

ROC曲线展示了模型在不同阈值下的性能表现：

python 复制代码

def plot_roc_curve(y_true, y_pred_proba):
    fpr, tpr, _ = roc_curve(y_true, y_pred_proba)
    auc = np.trapz(tpr, fpr)
    
    plt.figure(figsize=(8, 6))
    plt.plot(fpr, tpr, label=f'AUC = {auc:.3f}')
    plt.plot([0, 1], [0, 1], 'k--')
    plt.xlabel('假正率 (FPR)')
    plt.ylabel('真正率 (TPR)')
    plt.title('ROC曲线')
    plt.legend()

7.3 混淆矩阵

混淆矩阵展示了分类结果的详细情况：

python 复制代码

def plot_confusion_matrix(y_true, y_pred):
    cm = confusion_matrix(y_true, y_pred)
    plt.figure(figsize=(8, 6))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
    plt.xlabel('预测标签')
    plt.ylabel('真实标签')
    plt.title('混淆矩阵')

八、关键技术点总结

8.1 Stacking集成学习的优势

异质性：结合了不同类型算法的优势
元学习：通过第二层模型学习最优组合方式
鲁棒性：即使某个基础模型表现较差，整体性能仍能保持稳定

8.2 特征工程的重要性

创建医学上有意义的特征（如比率特征）
捕捉特征间的交互关系（复合特征）
提升模型的预测能力

8.3 类别不平衡处理

使用SMOTE生成合成样本
结合欠采样技术平衡数据分布
使用合适的评估指标（如F1分数、AUC）

8.4 模型评估策略

使用交叉验证评估模型泛化能力
多种评估指标综合判断
可视化结果便于理解

九、项目实践建议

9.1 环境配置

bash 复制代码

# 安装依赖
pip install -r requirements.txt

# 主要依赖包
pandas==1.5.3
numpy==1.24.2
scikit-learn==1.3.2
xgboost==2.1.4
lightgbm==4.1.0
catboost==1.2.2
matplotlib==3.9.4
seaborn==0.12.2
imbalanced-learn==0.12.4

9.2 运行步骤

准备数据：将数据集放在项目根目录
运行训练 ：python train.py
查看结果：检查生成的可视化图表和评估指标

9.3 优化建议

超参数调优：使用GridSearchCV或Optuna进行超参数优化
特征选择：尝试不同的特征选择方法，找到最优特征子集
模型融合：可以尝试Blending等其他融合策略
数据增强：收集更多数据或使用数据增强技术

十、结论与展望

10.1 项目总结

本项目成功构建了一个基于Stacking集成学习的乙型肝炎预测模型，主要成果：

✅ 实现了完整的机器学习流程：从数据预处理到模型评估
✅ 采用Stacking集成学习，整合了8种不同的算法
✅ 通过特征工程创建了有医学意义的特征
✅ 达到了较好的预测性能（交叉验证AUC=75.57%）

10.2 改进方向

模型优化：尝试更复杂的元模型或深度学习方法
特征工程：结合领域知识创建更多有效特征
数据收集：扩大数据集规模，提高模型泛化能力
模型解释：使用SHAP等工具进行模型可解释性分析
部署应用：将模型封装为API服务，方便实际应用

10.3 实际应用价值

虽然本项目是研究性质，但具有以下应用价值：

辅助诊断：为医生提供客观的诊断参考
早期筛查：通过生化指标快速识别高风险患者
健康教育：帮助公众了解肝病相关指标的意义

十一、参考资料

Indian Liver Patient Dataset: UCI Machine Learning Repository
Stacking集成学习原理与应用
医学机器学习最佳实践指南
scikit-learn官方文档
XGBoost/LightGBM/CatBoost官方文档

结语

本文详细介绍了基于Stacking集成学习的乙型肝炎预测模型的完整实现过程。从数据预处理、特征工程、模型设计到评估可视化，涵盖了机器学习项目的各个环节。

希望本文能够为从事医疗机器学习研究的同学提供参考。当然，实际医疗诊断需要综合考虑多种因素，本模型仅作为辅助工具，不能替代专业医生的判断。

如果对项目有任何问题或建议，欢迎在评论区交流讨论！