医学数据分析实训 项目九 糖尿病风险预测

文章目录

综合实践二 糖尿病遗传风险预测

本实践项目的数据集包含"train.csv"和"test.csv"两部分,部分特征名已经做了脱敏处理。训练集中包含年龄、性别、各项体检指标及目标血糖值。测试集相对于训练集缺少了对应的血糖值。训练集中包含 42个数据特征,其中 37 个为医学指标特征,数据集中的第一行为特征名称,其余每行代表一个个体。部分特征内容在部分人群中有缺失。

请将以上体检数据集进行预处理,并在处理后的数据集的基础上,结合交叉验证,运用一种基于决策树算法的梯度提升框架的 LightGBM 算法对训练集进行训练,建立预测模型,实现血糖预测功能。

一、分析目标

结合体检数据集,实现以下分析目标:

  1. 以血糖值为目标建立模型,实现血糖预测功能;
  2. 预测糖尿病遗传风险并对预测结果进行分析;

二、实现步骤

  1. 对数据集"train.csv"和"test.csv"中的数据进行数据探索、数据清洗、特征工程等操作;
  2. 结合交叉验证和 LightGBM 算法构建模型;
  3. 对模型结果进行分析,并进行模型评价;

三、数据准备

  1. 对数据集进行描述性统计分析;
  2. 对数据集"train.csv"和"test.csv"中的缺失值、重复值、异常值,以及格式与内容不规范的数据进行数据清洗;
  3. 结合数据集"train.csv"中的数据,分别绘制图形分析性别、年龄与血糖值的关系;
  4. 计算相关系数,得到数据集"train.csv"中每个指标与血糖值的相关系数,从而分析各特征与血糖值的相关性;

四、特征工程

  1. 结合统计分析结果和特征相关性,筛选数据集"train.csv"和"test.csv"中的特征;
  2. 将性别特征值转化为数值型数据;
  3. 根据年龄和血糖值之间的关系,筛选出高血糖分布的年龄段数据;

五、模型构建

  1. 利用 k 折交叉验证 model_selection.KFold() 将原始数据集 "train.csv" 划分为训练集和测试集两部分;
  2. 使用每次划分的训练集对 LightGBM 分类器进行训练,使用测试集评估 LightGBM 模型;
  3. 使用 LightGBM 模型预测测试集中的血糖值;

六、性能度量

  1. 使用多种评价指标对模型进行评价;
  2. 根据评价效果对模型进行优化;
  3. 绘制折线图分析血糖的真实值与预测值;
  4. 筛选出预测数据中血糖值在正常范围内(3.9~6.1 毫摩尔 / 升)的数据;
  5. 获得高血糖风险个体信息的数据;

七、提交要求

  1. 提交实现本实践任务的所有代码(可执行,非 .doc、.txt 等文本格式);
  2. 提交综合实践任务书(word格式),包括小组成员分工、分析目的、数据预处理、算法介绍、结果分析等内容;
  3. 提交预处理之后的数据集,以及所有可视化图表(命名规范,.jpg 格式);

综合实践任务二 糖尿病遗传风险预测代码

(一)数据准备

python 复制代码
# 导入本案例所需的 Python 包;
import matplotlib.pyplot as plt

# 设置显示中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
# 设置正常显示符号
plt.rcParams['axes.unicode_minus'] = False
import seaborn as sns
import pandas as pd

# 读取数据集;
datatest = pd.read_csv('data/test.csv', encoding='gbk')
datatrain = pd.read_csv('data/train.csv', encoding='gbk')

print(datatest.head())
print(datatrain.head())
python 复制代码
# 1. 对数据集进行描述性统计分析;

# 对test数据集进行描述性统计分析
print("test数据集的描述性统计分析:")
print(datatest.describe())
print(datatest.info())
print(datatest.shape)

# 对train数据集进行描述性统计分析
print("train数据集的描述性统计分析:")
print(datatrain.describe())
print(datatrain.info())
print(datatrain.shape)

发现要对性别,为数值型数据,日期格式化

python 复制代码
#2. 对数据集"train.csv"和"test.csv"中的缺失值、重复值、异常值,以及格式与内容不规范的数据进行数据清洗;
import numpy as np
from scipy import stats

# 检查缺失值
missing_train = datatrain.isnull().sum()
missing_test = datatest.isnull().sum()

print("训练集中缺失值:")
print(missing_train[missing_train > 0])
print("\n测试集中缺失值:")
print(missing_test[missing_test > 0])

# 处理缺失值
datatrain.dropna(inplace=True)  # 删除缺失值较多的行
datatest.dropna(subset=['性别'], inplace=True)  # 确保性别列不为空

# 内容不规范的数据进行数据清
# 转换性别特征为数值型
datatrain['性别'] = datatrain['性别'].map({'男': 1, '女': 0})
datatest['性别'] = datatest['性别'].map({'男': 1, '女': 0})

# 清洗日期列:将其转换为 datetime 格式
datatrain['体检日期'] = pd.to_datetime(datatrain['体检日期'], errors='coerce', dayfirst=True)
datatest['体检日期'] = pd.to_datetime(datatest['体检日期'], errors='coerce', dayfirst=True)

# 将日期转换为时间戳(单位为秒)
datatrain['体检日期'] = (datatrain['体检日期'].astype(np.int64) // 10 ** 9)  # 转换为秒
datatest['体检日期'] = (datatest['体检日期'].astype(np.int64) // 10 ** 9)  # 转换为秒

# 处理异常值
numeric_cols = datatrain.select_dtypes(include=[np.number]).columns
z_scores_train = stats.zscore(datatrain[numeric_cols])
abs_z_scores_train = np.abs(z_scores_train)
datatrain = datatrain[(abs_z_scores_train < 3).all(axis=1)]

# 检查特征中是否有NaN
print("数据集中NaN数量:")
print(datatrain[['年龄', '血糖']].isnull().sum())

# 打印前几行数据以检查
print("训练集前几行数据:")
print(datatrain[['年龄', '血糖']].head())

# 保存数据
datatrain.to_csv('data/train_clean.csv', index=False)
datatest.to_csv('data/test_clean.csv', index=False)
python 复制代码
训练集中缺失值:
*r-谷氨酰基转换酶     1406
*丙氨酸氨基转换酶      1406
*天门冬氨酸氨基转换酶    1406
*总蛋白           1406
*球蛋白           1406
*碱性磷酸酶         1406
中性粒细胞%           21
乙肝e抗体          5110
乙肝e抗原          5110
乙肝核心抗体         5110
乙肝表面抗体         5110
乙肝表面抗原         5110
低密度脂蛋白胆固醇      1395
单核细胞%            21
嗜碱细胞%            21
嗜酸细胞%            21
尿素             1572
尿酸             1572
总胆固醇           1395
淋巴细胞%            21
甘油三酯           1395
白球比例           1406
白细胞计数            21
白蛋白            1406
红细胞体积分布宽度        21
红细胞压积            21
红细胞平均体积          21
红细胞平均血红蛋白浓度      21
红细胞平均血红蛋白量       21
红细胞计数            21
肌酐             1572
血小板体积分布宽度        29
血小板平均体积          29
血小板比积            29
血小板计数            21
血红蛋白             21
高密度脂蛋白胆固醇      1395
dtype: int64

测试集中缺失值:
*天门冬氨酸氨基转换酶    185
*丙氨酸氨基转换酶      185
*碱性磷酸酶         185
*r-谷氨酰基转换酶     185
*总蛋白           185
白蛋白            185
*球蛋白           185
白球比例           185
甘油三酯           176
总胆固醇           176
高密度脂蛋白胆固醇      176
低密度脂蛋白胆固醇      176
尿素             194
肌酐             194
尿酸             194
乙肝表面抗原         831
乙肝表面抗体         831
乙肝e抗原          831
乙肝e抗体          831
乙肝核心抗体         831
白细胞计数            5
红细胞计数            5
血红蛋白             5
红细胞压积            5
红细胞平均体积          5
红细胞平均血红蛋白量       5
红细胞平均血红蛋白浓度      5
红细胞体积分布宽度        5
血小板计数            5
血小板平均体积          6
血小板体积分布宽度        6
血小板比积            6
中性粒细胞%           5
淋巴细胞%            5
单核细胞%            5
嗜酸细胞%            5
嗜碱细胞%            5
dtype: int64
数据集中NaN数量:
年龄    0
血糖    0
dtype: int64
python 复制代码
#3. 结合数据集"train.csv"中的数据,分别绘制图形分析性别、年龄与血糖的关系;
import os

# 绘制性别与血糖值的关系
plt.figure(figsize=(8, 6))
sns.boxplot(x='性别', y='血糖', data=datatrain)
plt.title('性别与血糖的关系')
plt.xlabel('性别 (0: 女, 1: 男)')
plt.ylabel('血糖')
plt.xticks([0, 1], ['女', '男'])
# 保存图片
if not os.path.exists('output'):
    os.makedirs('output')
plt.savefig('output/性别与血糖的关系.png')
plt.show()

# 绘制年龄与血糖值的关系
plt.figure(figsize=(8, 6))
sns.scatterplot(x='年龄', y='血糖', data=datatrain)
plt.title('年龄与血糖的关系')
plt.xlabel('年龄')
plt.ylabel('血糖')
plt.savefig('output/年龄与血糖的关系.png')
plt.show()


python 复制代码
# 4. 计算相关系数,得到数据集"train.csv"中每个指标与血糖值的相关系数,从而分析各特征与血糖值的相关性;
# 计算相关系数
correlation_matrix = datatrain.corr()

# 获取血糖值与其他特征的相关系数
glucose_correlation = correlation_matrix['血糖'].sort_values(ascending=False)

# 打印相关系数
print("各特征与血糖的相关系数:")
print(glucose_correlation)

# 可视化相关系数热图(这个可以不要,做图后,发现没有必要使用热力图)
plt.figure(figsize=(12, 10))  # 调整图形大小
sns.heatmap(correlation_matrix, annot=False, fmt='.2f', cmap='coolwarm',
            linewidths=0.5, linecolor='gray', cbar_kws={'shrink': 0.8})

# 设置坐标轴标签的旋转角度
plt.xticks(rotation=45, ha='right', fontsize=10)
plt.yticks(fontsize=10)

# 设置标题
plt.title('相关系数热图', fontsize=16)

plt.tight_layout()
plt.show()

(二)特征工程

python 复制代码
#1. 结合统计分析结果和特征相关性,筛选数据集"train.csv"和"test.csv"中的特征;
# 获取与血糖相关的特征
correlation_with_glucose = correlation_matrix['血糖'].sort_values(ascending=False)
print("与血糖的相关系数:")
print(correlation_with_glucose)
with open('output/与血糖的相关系数.txt', 'a') as f:
    f.write("与血糖的相关系数:\n")
    f.write(str(correlation_with_glucose) + "\n")

# 筛选出相关系数绝对值大于某个阈值的特征
threshold = 0.1  # 可以调整
selected_features = correlation_with_glucose[abs(correlation_with_glucose) > threshold].index.tolist()

# 确保血糖是最后一个特征
if '血糖' in selected_features:
    selected_features.remove('血糖')
selected_features.append('血糖')
print(f"选择的特征: {selected_features}")

# 筛选训练集和测试集的特征
X_train = datatrain[selected_features]
X_test = datatest[selected_features[:-1]]  # 不包括目标变量

# 打印选择的特征集信息
print("筛选后的训练集特征:")
print(X_train.head())
print("\n筛选后的测试集特征:")
print(X_test.head())
python 复制代码
#2. 将性别特征值转化为数值型数据;
# 已经转化为数值型数据,只需要查看转换后的性别数据
print("\n训练集中性别特征转化后的数据:")
print(datatrain[selected_features][['性别']].head())

print("\n测试集中性别特征转化后的数据:")
print(datatrain[selected_features][['性别']].head())
python 复制代码
#3. 根据年龄和血糖之间的关系,筛选出高血糖分布的年龄段数据;
# 定义高血糖标准
high_glucose_threshold = 6.1  # 血糖值大于 6.1 mmol/L 视为高血糖

# 筛选高血糖分布的年龄段数据
high_glucose_data = datatrain[datatrain['血糖'] > high_glucose_threshold]

# 打印高血糖数据及其年龄
print("高血糖记录的年龄段数据:")
print(high_glucose_data[['年龄', '血糖']])

# 分析年龄分布,可以绘制直方图
# 绘制高血糖年龄分布图
plt.figure(figsize=(10, 6))

# 折线图和直方图分开设置颜色和透明度
sns.histplot(high_glucose_data['年龄'], bins=10, kde=True, color='skyblue', alpha=0.5)

plt.title('高血糖分布的年龄段', fontsize=14)
plt.xlabel('年龄', fontsize=12)
plt.ylabel('频率', fontsize=12)

# 显示网格
plt.grid(True, linestyle='--', alpha=0.6)
plt.savefig('output/高血糖分布的年龄段.png')

plt.show()

(三)模型构建

  1. 利用 k 折交叉验证 model_selection.KFold()将原始数据集"train.csv"划分为训练集和测试集两部分;
  2. 使用每次划分的训练集对 LightGBM 分类器进行训练,使用测试集评估LightGBM 模型;
  3. 使用 LightGBM 模型预测测试集中的血糖值;
python 复制代码
from sklearn.model_selection import KFold
import lightgbm as lgb
from sklearn.metrics import mean_squared_error, r2_score
# 设置参数
n_splits = 5  # k 折交叉验证的折数
kf = KFold(n_splits=n_splits, shuffle=True, random_state=42)
# 准备特征和目标变量
X = X_train.drop(columns=['血糖']) # 不包括目标变量 血糖
y = X_train['血糖']

# 初始化 LightGBM 模型
model = lgb.LGBMRegressor()
# 存储每次交叉验证的结果
results = []
# 进行 k 折交叉验证
for train_index, test_index in kf.split(X):
    X_train_cv, X_test_cv = X.iloc[train_index], X.iloc[test_index]
    y_train_cv, y_test_cv = y.iloc[train_index], y.iloc[test_index]
    # 训练模型
    model.fit(X_train_cv, y_train_cv)
    # 预测
    y_pred = model.predict(X_test_cv)
    # 计算评价指标
    mse = mean_squared_error(y_test_cv, y_pred)
    r2 = r2_score(y_test_cv, y_pred)
    results.append((mse, r2))
# 输出平均结果
average_mse = np.mean([result[0] for result in results])
average_r2 = np.mean([result[1] for result in results])
print(f"平均均方误差: {average_mse:.4f}")
print(f"平均 R^2 值: {average_r2:.4f}")

# 使用训练好的模型预测测试集
predictions = model.predict(X_test)

# 将预测结果保存
datatest['预测血糖'] = predictions
datatest.to_csv('结果分析/LightGBM模型预测测试集中的血糖值.csv', index=False)

平均均方误差: 0.7351

平均 R^2 值: 0.1289

模型训练的结果显示平均均方误差为0.7351,而平均R²值为0.1289。这表明模型的性能并不理想,R²值接近于0,意味着模型对数据的解释能力较弱。

(四)性能度量

1.使用多种评价指标对模型进行评价;

2.根据评价效果对模型进行优化;

3.绘制折线图分析血糖的真实值与预测值;

4.筛选出预测数据中血糖值在正常范围内(3.9~6.1 毫摩尔/升)的数据;

5.获得高血糖风险个体信息的数据;

python 复制代码
# 1. 使用多种评价指标对模型进行评价

# 导入必要的库
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import matplotlib.pyplot as plt
import seaborn as sns

# 1. 使用多种评价指标对模型进行评价
print(f"平均均方误差: {average_mse:.4f}")
print(f"平均 R^2 值: {average_r2:.4f}")

平均均方误差: 0.7351

平均 R^2 值: 0.1289

结果很差,没必要优化了,这个项目写的不好

python 复制代码
# 3. 绘制折线图分析血糖的真实值与预测值
plt.figure(figsize=(10, 6))
plt.plot(y_test_cv.values, label='真实值', marker='o')
plt.plot(y_pred, label='预测值', marker='x')
plt.title('真实值与预测值对比')
plt.xlabel('样本')
plt.ylabel('血糖值')
plt.legend()
plt.grid(True)
plt.savefig('结果分析/真实值与预测值对比.png')
plt.show()
python 复制代码
# 4. 筛选出预测数据中血糖值在正常范围内的数据
normal_glucose_data = datatest[(datatest['预测血糖'] >= 3.9) & (datatest['预测血糖'] <= 6.1)]
print("正常血糖范围内的预测数据:")
print(normal_glucose_data[['id', '预测血糖']])
python 复制代码
# 5. 获得高血糖风险个体信息的数据
high_risk_data = datatest[datatest['预测血糖'] > 6.1]
print("高血糖风险个体的信息:")
print(high_risk_data[['id', '预测血糖']])
相关推荐
惟长堤一痕4 小时前
医学数据分析实训 项目四回归分析--预测帕金森病病情的严重程度
数据挖掘·数据分析·回归
Lossya4 小时前
【机器学习】参数学习的基本概念以及贝叶斯网络的参数学习和马尔可夫随机场的参数学习
人工智能·学习·机器学习·贝叶斯网络·马尔科夫随机场·参数学习
Trouvaille ~4 小时前
【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧
图像处理·python·机器学习·numpy·信号处理·时间序列分析·科学计算
shiming88796 小时前
Python数据分析与可视化
开发语言·python·数据分析
一声沧海笑6 小时前
dplyr、tidyverse和ggplot2初探
信息可视化·数据分析·r语言
qq_550337997 小时前
研1日记14
人工智能·深度学习·机器学习
i嗑盐の小F7 小时前
【IEEE&ACM Fellow、CCF组委】第三届人工智能与智能信息处理国际学术会议(AIIIP 2024)
人工智能·深度学习·算法·机器学习·自然语言处理·信号处理
大耳朵爱学习9 小时前
大模型预训练的降本增效之路——从信息密度出发
人工智能·深度学习·机器学习·自然语言处理·大模型·llm·大语言模型
FOUR_A10 小时前
【机器学习导引】ch2-模型评估与选择
人工智能·机器学习
geekrabbit12 小时前
机器学习和深度学习的区别
运维·人工智能·深度学习·机器学习·浪浪云