C题 社交媒体平台用户分析问题
- [2025 年第十五届 APMCM 数学建模](#2025 年第十五届 APMCM 数学建模)
- [B题 疾病的预测与大数据分析](#B题 疾病的预测与大数据分析)
-
- 一、问题重述
- 二、问题假设
- 三、问题一模型的建立和求解
-
- [3.1 数据预处理](#3.1 数据预处理)
- [3.2 相关性分析](#3.2 相关性分析)
- [3.3 问题一结果及分析](#3.3 问题一结果及分析)
- 四、问题二模型的建立和求解
-
- [4.1 基于SARIMA-BP神经网络组合预测模型的建立](#4.1 基于SARIMA-BP神经网络组合预测模型的建立)
- [4.2 SARIMA-BP神经网络组合预测模型的求解](#4.2 SARIMA-BP神经网络组合预测模型的求解)
- 完整建模论文与代码
2025 年第十五届 APMCM 数学建模
B题 疾病的预测与大数据分析

一、问题重述
1.1、问题背景
1.2、解决问题
问题 1 数据预处理与基础统计分析 对三种疾病数据集 stroke.csv、heart.csv 和 cirrhosis.csv 进行数据预处 理、统计分析和可视化,并分析哪些因素会影响中风、心脏病和肝硬化的患病概 率。
问题 2 不同疾病预测模型的构建 请分别选取合适的特征指标,建立中风、心脏病和肝硬化三种疾病患病概率 的预测模型,并进行模型准确性的检验、灵敏度分析和模型改进。
问题 3 多疾病关联与综合风险评估 请综合分析中风、心脏病和肝硬化这三种疾病的共同特征和共病情况,建立数学模型预测同时患有其中任意两种和同时患有三种疾病的概率。
问题 4 预防三种疾病的建议和措施 请根据你们数学模型和数据分析的结果,针对这三种疾病,给世界卫生组织 (WHO)写一封信,提出你们的预防建议和措施。
二、问题假设
三、问题一模型的建立和求解

3.1 数据预处理
3.1.1异常值处理
- 使用K-S检验判断数据是否服从正态分布。
- 使用拉依达准则(3σ准则)检测并剔除异常值。
3.1.2缺失值处理
- 使用样条函数法填充缺失值,具体包括规则样条函数的计算公式和适用场景。
- 给出了三个数据集的缺失值情况。
3.2 相关性分析
- 使用Pearson相关性分析计算各因素与疾病的相关系数。
- 给出了中风、心脏病和肝硬化数据集中各因素与目标变量的相关性结果。
3.3 问题一结果及分析
通过对中风、心脏病和肝硬化三组医疗数据的统计分析,我们可以清晰地观察到不同临床特征与疾病发生发展的相关性模式,这些发现对于疾病早期预警和临床干预具有重要指导意义。
中风数据集的分析结果显示,在所有考察因素中,年龄与中风发生的相关性最强(r=0.245),这与临床经验高度一致。老年人群血管弹性下降、动脉硬化程度增加,显著提升了中风风险。值得注意的是,高血压(r=0.128)和心脏病史(r=0.135)这两个心血管危险因素的相关性几乎相当,说明它们对中风风险的贡献度相似。平均血糖水平(r=0.132)作为代谢综合征的重要指标,其相关性强度与高血压相当,提示血糖控制对中风预防的重要性。然而,BMI(r=0.039)和吸烟状况(r=0.028)的相关性相对较弱,这可能与数据中肥胖和吸烟者比例较低有关。工作类型(r=-0.032)显示出微弱的负相关,可能反映体力劳动者中风风险略低的趋势。
心脏病数据集展现出更显著的相关性特征。ST段斜率表现出最强的负相关性(r=-0.559),这一心电图表现在临床上本身就是诊断心肌缺血的重要指标,数据验证了其预测价值。最大心率(r=-0.400)的显著负相关说明心脏功能储备不足的患者风险更高。运动诱发心绞痛(r=0.494)和ST段压低(Oldpeak,r=0.404)这两个运动负荷指标的高相关性,证实了运动心电图对心脏病筛查的有效性。胸痛类型(r=-0.387)中,无症状(ASY)患者风险最高,这类"沉默型"心脏病尤其需要警惕。性别差异(r=0.305)显示男性风险更高,这与激素保护作用的理论相符。值得注意的是,胆固醇水平(r=-0.233)呈现意外负相关,可能因为该数据集包含已接受降脂治疗的患者。
肝硬化数据集揭示了独特的模式。肝肿大(r=0.356)和蜘蛛痣(r=0.245)这两个体格检查指标表现出强相关性,是门脉高压的典型表现。白蛋白(r=-0.302)的显著负相关反映了肝脏合成功能衰退与疾病进展的关系。血小板减少(r=-0.240)与凝血酶原时间延长(r=0.206)共同提示脾亢进和凝血功能障碍的恶化。胆红素(r=0.200)升高与腹水(r=0.217)形成标志着肝功能失代偿。有趣的是,随访天数(N_Days,r=-0.362)的负相关说明存活时间长的患者疾病阶段反而较低,这可能反映了早期干预的效果。药物干预(r=0.058)相关性微弱,提示需要更有效的治疗方案。
三组数据共同揭示了几个关键规律:首先,生理功能指标(如心脏的ST段斜率、肝脏的白蛋白、脑血管的血糖)比人口学特征具有更强的预测价值;其次,疾病特异性临床表现(如肝肿大、运动心绞痛)比通用指标(如BMI、吸烟)相关性更强;最后,多系统交互影响明显,如心脏病对中风风险的贡献。这些发现为建立精准的疾病预测模型提供了特征选择依据,后续建模应优先考虑各数据集中相关系数绝对值大于0.2的关键变量。同时,某些负相关现象(如心脏病的胆固醇水平)提示需要更深入的数据挖掘,以识别潜在的混杂因素或治疗干扰效应。
四、问题二模型的建立和求解

4.1 基于SARIMA-BP神经网络组合预测模型的建立
- Step1. SARIMA模型的建立:
- 介绍SARIMA模型的原理,包括ARIMA模型的基础和SARIMA模型的扩展。
- 解释SARIMA模型的参数和应用步骤。
- Step2. BP神经网络模型的建立:
- 介绍BP神经网络的结构和作用,包括非线性残差修正和增强预测精度。
- 定义残差数据的计算方法和BP神经网络的输入输出。
- 神经网络的前向传播和反向传播过程。
- Step3. BP神经网络残差修正的组合预测:
- 将BP神经网络预测的残差加到SARIMA模型的预测值上,得到最终的预测值。
4.2 SARIMA-BP神经网络组合预测模型的求解
结果显示,SARIMA模型能够较好地捕捉疾病的季节性和周期性特征,但单独的SARIMA模型在处理数据中的非线性成分时存在一定的局限性。通过引入BP神经网络对SARIMA模型的残差进行修正,组合模型能够进一步平滑预测曲线,降低异常值的影响,提高预测的稳定性和准确性。具体而言,中风发病概率的预测曲线在经过BP神经网络修正后,波动明显减少,长期概率稳定在0.4左右,显示出较好的预测效果;心脏病发病概率的预测曲线也通过BP网络修正变得更加平滑,最终稳定在0.4左右,为临床干预提供了更可靠的决策依据。这表明SARIMA-BP组合模型在处理具有复杂波动和非线性特征的疾病预测问题时,具有显著的优势和应用价值。
完整建模论文与代码
后续会更新完整论文与求解代码,完整版请看文章下方~