基于机器学习的糖尿病数据分析与风险评估系统

B站视频及代码下载：基于机器学习的糖尿病数据分析与风险评估系统_哔哩哔哩_bilibili

1. 项目简介

糖尿病，作为一种在全球范围内广泛流行的慢性疾病，已经影响了数以百万计的人们的生活，给全球公共健康带来了严重的挑战。因此，糖尿病的预防和控制成为了全球公共卫生领域的一项重要任务。准确预测糖尿病的发病风险对于早期干预和预防至关重要。

本项目通过可视化分析 对数据进行初步探索，再通过斯皮尔曼相关性检验 探究患糖尿病的影响因素，通过建立Xgboost 模型对是否患有糖尿病就行建模和训练，在不知道临床测量结果的前提下，去预测某人是否会患有糖尿病，测试集预测 AUC 达到 94.2%。通过机器学习模型分析影响糖尿病的主要因素，可以帮助医疗从业者更好地了解病因和风险因素，从而制定有效的预防和治疗策略。

2. 糖尿病数据探索式可视化分析

2.1 数据集读取与预处理

数据集包含了患者的各项健康指标及其是否患有糖尿病的标签。数据集的主要目标是通过机器学习模型预测糖尿病的发病风险，并分析影响糖尿病的主要健康因素。该数据集包含1879名患者的全面健康数据，唯一标识的ID范围为6000至7878。这些数据包括人口统计细节、生活方式因素、病史、临床测量、药物使用、症状、生活质量评分、环境暴露和健康行为。每位患者都有一名负责的保密医生，确保隐私和保密性。该数据集非常适合研究人员和数据科学家探索与糖尿病相关的因素、开发预测模型和进行统计分析。

复制代码

data = pd.read_csv('diabetes_data.csv')
data.shape

# 删除患者ID列和主管医生列
data.drop(['PatientID','DoctorInCharge'],axis=1,inplace=True)

# 查看数据信息
data.info()

# 查看重复值
data.duplicated().sum()

2.2 患者基本信息统计分布

年龄：共有1879条记录，年龄从20岁到90岁不等，平均年龄约为55.04岁。
性别：共有2个不同的性别分类，其中男性（0）和女性（1）均有记录，男性占52.51%，女性占47.49%。
种族：共有4个不同的种族分类，其中最常见的种族是白种人（0），有1175人。
社会经济地位：共有3个不同的社会经济地位分类，社会经济地位中等（1）最常见，有751人。
教育水平分布：共有4个不同的教育水平分类，学士学位（2）最常见，有1116人。
BMI：体质指数范围从15.03到39.99，平均值约为27.69。

2.3 吸烟饮酒等生活习惯统计分布

吸烟：共有2个分类，吸烟者（1）和非吸烟者（0），非吸烟者占71.85%。
饮酒量：饮酒量从0.000928到19.996231不等，平均饮酒量约为10.10。
每周体育活动时间：每周体育活动时间从0.004089小时到9.993893小时不等，平均每周体育活动时间为5.20小时。
饮食质量：饮食质量评分从0.000885到9.998677，平均值约为4.90。
睡眠质量：数据缺乏具体描述，但睡眠质量评分预计为正态分布。
生活质量：生活质量评分从0.00239到99.7885，平均值约为48.51。

Compute the correlation matrix

corr = data.corr()

Generate a mask for the upper triangle

mask = np.triu(np.ones_like(corr, dtype=bool))

Set up the matplotlib figure

f, ax = plt.subplots(figsize=(11, 9))

Generate a custom diverging colormap

cmap = sns.diverging_palette(230, 20, as_cmap=True)

Draw the heatmap with the mask and correct aspect ratio

sns.heatmap(corr, mask=mask, cmap=cmap, vmax=.3, center=0,
square=True, linewidths=.5, cbar_kws={"shrink": .5})

plt.show()

类似维度的统计分析，还包括其他疾病患病情况、临床检查结果、药物使用情况、症状情况、生活及工作环境、健康状况等维度，此处篇幅限制暂省略，具体可参考演示视频和源代码。

3. 糖尿病发病风险的影响因素分析

通过计算特征与预测目标之间的斯皮尔曼相关性，并绘制相关性热力分布图。

python 复制代码

# Compute the correlation matrix
corr = data.corr()

# Generate a mask for the upper triangle
mask = np.triu(np.ones_like(corr, dtype=bool))

# Set up the matplotlib figure
f, ax = plt.subplots(figsize=(11, 9))

# Generate a custom diverging colormap
cmap = sns.diverging_palette(230, 20, as_cmap=True)

# Draw the heatmap with the mask and correct aspect ratio
sns.heatmap(corr, mask=mask, cmap=cmap, vmax=.3, center=0,
            square=True, linewidths=.5, cbar_kws={"shrink": .5})

plt.show()

个人统计信息与患糖尿病之间的相关性分析：

4. 机器学习建模预测糖尿患病情况

4.1 数据集切分

python 复制代码

import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import auc, roc_curve
from sklearn.metrics import accuracy_score, precision_score, recall_score

y_train_all = data['Diagnosis']
X_train_all = data.drop(columns=['Diagnosis'])

X_train, X_valid, y_train, y_valid = train_test_split(X_train_all, y_train_all, test_size=0.1, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X_train, y_train, test_size=0.1, random_state=42)

print('train: {}, valid: {}, test: {}'.format(X_train.shape[0], X_valid.shape[0], X_test.shape[0]))

4.2 梯度提升决策树 Xgboost 模型

python 复制代码

df_columns = X_train.columns.values
print('===> feature count: {}'.format(len(df_columns)))

xgb_params = {
    'eta': 0.05,
    'min_child_weight': 8,
    'colsample_bytree': 0.5,
    'max_depth': 4,
    'subsample': 0.9,
    'lambda': 2.0,
    'eval_metric': 'auc',
    'objective': 'binary:logistic',
    'nthread': -1,
    'silent': 1,
    'booster': 'gbtree'
}

dtrain = xgb.DMatrix(X_train, y_train, feature_names=df_columns)
dvalid = xgb.DMatrix(X_valid, y_valid, feature_names=df_columns)

watchlist = [(dtrain, 'train'), (dvalid, 'valid')]

4.3 模型训练

python 复制代码

model = xgb.train(dict(xgb_params),
                      dtrain,
                      evals=watchlist,
                      verbose_eval=10,
                      early_stopping_rounds=100,
                      num_boost_round=4000)

训练日志：

python 复制代码

[0]	train-auc:0.64543	valid-auc:0.54761
[10]	train-auc:0.97141	valid-auc:0.95499
[20]	train-auc:0.97530	valid-auc:0.95752
[30]	train-auc:0.97728	valid-auc:0.95941
[40]	train-auc:0.97865	valid-auc:0.95917
[50]	train-auc:0.98003	valid-auc:0.96248
[60]	train-auc:0.98180	valid-auc:0.96389
[70]	train-auc:0.98345	valid-auc:0.96614
[80]	train-auc:0.98446	valid-auc:0.96791
[90]	train-auc:0.98518	valid-auc:0.96684
[100]	train-auc:0.98612	valid-auc:0.96625
[110]	train-auc:0.98665	valid-auc:0.96743
[120]	train-auc:0.98709	valid-auc:0.96743
[130]	train-auc:0.98756	valid-auc:0.96791
[140]	train-auc:0.98839	valid-auc:0.96661
[150]	train-auc:0.98915	valid-auc:0.96637
[160]	train-auc:0.98975	valid-auc:0.96649
[170]	train-auc:0.99045	valid-auc:0.96661
[178]	train-auc:0.99088	valid-auc:0.96625

4.4 特征重要程度分布

可以看出，HbA1c 糖化血红蛋白的特征对于预测是否患病的重要程度最高，进一步的，分析该特征对于是否患有糖尿病的分布区别：

python 复制代码

plt.figure(figsize=(15, 10))

# 定期体检频率
plt.subplot(2, 2, 1)
sns.distplot(data[data['Diagnosis'] == 1]['HbA1c'], bins=50, label='患糖尿病')
sns.distplot(data[data['Diagnosis'] == 0]['HbA1c'], bins=50, label='未患糖尿病')
plt.title('糖化血红蛋白分布')
plt.xlabel('定期体检频率')
plt.legend()
plt.ylabel('频数')
plt.show()

可以看出，该特征的确具有非常明显的区分效果。

4.5 模型性能评估

4.5.1 AUC 指标评估

使用已经训练好的模型对训练集、验证集和测试集进行预测，并计算每个数据集的预测结果的AUC（Area Under the Curve）得分

python 复制代码

# predict train
predict_train = model.predict(dtrain)
train_auc = evaluate_score(predict_train, y_train)

# predict validate
predict_valid = model.predict(dvalid)
valid_auc = evaluate_score(predict_valid, y_valid)

# predict test
dtest = xgb.DMatrix(X_test, feature_names=df_columns)
predict_test = model.predict(dtest)
test_auc = evaluate_score(predict_test, y_test)

print('训练集 auc = {:.7f} , 验证集 auc = {:.7f} , 测试集 auc = {:.7f}\n'.format(train_auc, valid_auc, test_auc))

复制代码

训练集 auc = 0.9908796 , 验证集 auc = 0.9662537 , 测试集 auc = 0.9422857

4.5.2 测试集预测 ROC 曲线

python 复制代码

fpr, tpr, _ = roc_curve(y_test, predict_test)
roc_auc = auc(fpr, tpr)

plt.figure(figsize=(8,8))
plt.plot(fpr, tpr, color='darkorange',
         lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([-0.02, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC curve')
plt.legend(loc="lower right")
plt.show()

4.5.3 测试集预测结果混淆矩阵计算

5. 基于机器学习的糖尿病数据分析与风险评估系统

5.1 系统首页

5.2 糖尿病风险评估实时预测

在Flask 应用程序中的路由处理函数 submit_and_predict，它负责接收通过 HTTP POST 方法提交的测试文件，并使用预训练好的模型来预测糖尿病的发生概率。

python 复制代码

@app.route('/submit_and_predict', methods=['POST'])
def submit_and_predict():
    """
    糖尿病在线预测
    """
    test_file = request.files['file']
    filename = test_file.filename

    # 保存上传的文件
    test_file_path = './static/predict_test/{}'.format(filename)
    test_file.save(test_file_path)

    test_data = pd.read_csv(test_file_path)
    ......

    dtest = xgb.DMatrix(test_data, feature_names=df_columns)
    preds = model.predict(dtest)
    pred_labels = (preds > 0.5).astype(int)

    ......

    return jsonify({
        'success': True,
        'header': header,
        'rows': rows
    })

6. 结论

B站视频及代码下载：基于机器学习的糖尿病数据分析与风险评估系统_哔哩哔哩_bilibili
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。技术交流、源码获取 认准下方 CSDN 官方提供的学长 QQ 名片 :)

精彩专栏推荐订阅：

1. Python数据挖掘精品实战案例

2. 计算机视觉 CV 精品实战案例

3. 自然语言处理 NLP 精品实战案例