基于机器学习的心脏病预测模型构建与可解释性分析

一、引言

心脏病是威胁人类健康的重要疾病之一,早期预测和诊断对防治心脏病具有重要意义。本文利用公开的心脏病数据集,通过机器学习算法构建预测模型,并使用 SHAP 值进行模型可解释性分析,旨在为心脏病的辅助诊断提供参考。

二、数据准备与预处理

1. 数据加载

数据集来源于 Kaggle 公开的心脏病数据集(heart.csv),包含 303 条样本和 14 个特征,目标变量为是否患有心脏病(target,0 表示无,1 表示有)。关键代码如下:

复制代码
data = pd.read_csv('heart.csv')
print(f"数据规模: {data.shape}")  # 输出:数据规模: (303, 14)
print("目标分布:\n", data['target'].value_counts(normalize=True))

目标分布显示正负样本比例约为 6:4,存在轻微不平衡,后续通过分层抽样处理。

2. 特征划分

数值型特征:年龄、血压、胆固醇等连续变量,共 6 个。

分类型特征:性别、胸痛类型、血糖等离散变量,共 8 个。

复制代码
cat_features = ['sex', 'cp', 'fbs', 'restecg', 'exang', 'slope', 'ca', 'thal']
num_features = [c for c in X.columns if c not in cat_features]

3. 预处理流程

采用 ColumnTransformer 构建预处理管道:

数值型特征:标准化(StandardScaler)

分类型特征:独热编码(OneHotEncoder,丢弃第一个类别避免多重共线性)

复制代码
preprocessor = ColumnTransformer([
    ('num', StandardScaler(), num_features),
    ('cat', OneHotEncoder(drop='first', handle_unknown='ignore'), cat_features)
])

三、模型训练与对比

1. 算法选择与超参数调优

选取 4 种经典分类算法,使用 GridSearchCV 进行 5 折交叉验证,以 F1 分数为优化指标:

随机森林(RF):调优参数包括树的数量(n_estimators)和最大深度(max_depth)

逻辑回归(LR):调优参数为正则化系数(C)

决策树(DT):调优参数为最大深度(max_depth)

支持向量机(SVM):调优参数为正则化系数(C)和核函数(kernel)

2. 训练流程

复制代码
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y  # 分层抽样保持样本分布
)

for name, cfg in model_configs.items():
    pipe = Pipeline([('pre', preprocessor), ('model', cfg['model'])])
    grid = GridSearchCV(pipe, cfg['params'], cv=5, scoring='f1', n_jobs=-1)
    grid.fit(X_train, y_train)  # 训练模型
    # 计算评估指标

3. 模型性能对比

模型 最佳参数 准确率 精确率 召回率 F1 分数 ROC-AUC
rf {'model__max_depth': 10, 'model__n_estimators': 200} 0.87 0.88 0.85 0.86 0.93
lr {'model__C': 1.0} 0.85 0.85 0.83 0.84 0.91
dt {'model__max_depth': 10} 0.83 0.83 0.82 0.82 0.89
svm {'model__C': 1, 'model__kernel': 'rbf'} 0.86 0.87 0.83 0.85 0.92

结论:随机森林(RF)在 F1 分数和 ROC-AUC 指标上表现最优,选为最终模型。

四、模型可解释性分析(SHAP 值)

1. SHAP 原理简介

SHAP(SHapley Additive exPlanations)基于合作博弈论,通过计算每个特征对预测结果的贡献度,实现模型可解释性。

2. 特征重要性分析

(1)条形图

(2)摘要图(Beeswarm)

五、结论与展望

1. 结论

随机森林模型在心脏病预测中表现最佳,准确率达 87%,F1 分数 0.86。关键影响因素为冠状动脉钙化数量、地中海贫血筛查结果和运动后 ST 段变化,与医学常识一致,验证了模型的合理性。

2. 改进方向

尝试集成学习(如 Stacking)或深度学习模型(如神经网络)。引入更多临床特征(如家族病史、生活习惯等)提升模型泛化能力。针对不平衡数据采用 SMOTE 等过采样技术优化。

相关推荐
杜子不疼.17 分钟前
计算机视觉热门模型手册:Spring Boot 3.2 自动装配新机制:@AutoConfiguration 使用指南
人工智能·spring boot·计算机视觉
无心水2 小时前
【分布式利器:腾讯TSF】7、TSF高级部署策略全解析:蓝绿/灰度发布落地+Jenkins CI/CD集成(Java微服务实战)
java·人工智能·分布式·ci/cd·微服务·jenkins·腾讯tsf
北辰alk7 小时前
RAG索引流程详解:如何高效解析文档构建知识库
人工智能
九河云7 小时前
海上风电“AI偏航对风”:把发电量提升2.1%,单台年增30万度
大数据·人工智能·数字化转型
wm10438 小时前
机器学习第二讲 KNN算法
人工智能·算法·机器学习
沈询-阿里8 小时前
Skills vs MCP:竞合关系还是互补?深入解析Function Calling、MCP和Skills的本质差异
人工智能·ai·agent·ai编程
xiaobai1788 小时前
测试工程师入门AI技术 - 前序:跨越焦虑,从优势出发开启学习之旅
人工智能·学习
盛世宏博北京8 小时前
云边协同・跨系统联动:智慧档案馆建设与功能落地
大数据·人工智能
TGITCIC9 小时前
讲透知识图谱Neo4j在构建Agent时到底怎么用(二)
人工智能·知识图谱·neo4j·ai agent·ai智能体·大模型落地·graphrag
逆羽飘扬9 小时前
DeepSeek-mHC深度拆解:流形约束如何驯服狂暴的超连接?
人工智能