2026 年第十六届 MathorCup 数学建模C题参考论文
(第一版)
目录
2026妈妈杯数学建模ABCD题助攻资料
链接: https://pan.baidu.com/s/1ur8ChcSXoYJKrpFCS8kd-A?pwd=2628
https://pan.baidu.com/s/1ur8ChcSXoYJKrpFCS8kd-A?pwd=2628 提取码: 2628
[1.1 问题背景](#1.1 问题背景)
[1.2 研究任务](#1.2 研究任务)
[4.1 问题一分析](#4.1 问题一分析)
[4.2 问题二分析](#4.2 问题二分析)
[4.3 问题三分析](#4.3 问题三分析)
[5.1 数据构成](#5.1 数据构成)
[5.2 缺失值与异常值处理](#5.2 缺失值与异常值处理)
[5.3 标准化与编码](#5.3 标准化与编码)
[6.1 三层递进式关键指标筛选模型](#6.1 三层递进式关键指标筛选模型)
[6.2 Pearson 相关性分析](#6.2 Pearson 相关性分析)
[6.3 LASSO 回归特征筛选](#6.3 LASSO 回归特征筛选)
[6.4 随机森林特征重要性排序](#6.4 随机森林特征重要性排序)
[6.5 九种体质贡献度 Logistic 回归模型](#6.5 九种体质贡献度 Logistic 回归模型)
[6.6 问题一结果与分析](#6.6 问题一结果与分析)
[7.1 LightGBM 三级风险预警模型](#7.1 LightGBM 三级风险预警模型)
[7.1 LightGBM 三级风险预警模型](#7.1 LightGBM 三级风险预警模型)
[7.2 模型输入与输出](#7.2 模型输入与输出)
[7.3 风险等级划分规则](#7.3 风险等级划分规则)
[7.4 高风险人群核心特征组合](#7.4 高风险人群核心特征组合)
[7.5 模型评价与对比](#7.5 模型评价与对比)
[8.1 多目标优化模型构建](#8.1 多目标优化模型构建)
[8.1 多目标优化模型构建](#8.1 多目标优化模型构建)
[8.2 目标函数设计](#8.2 目标函数设计)
[8.3 约束条件体系](#8.3 约束条件体系)
[8.4 遗传算法求解流程](#8.4 遗传算法求解流程)
[8.5 样本 1、2、3 最优干预方案](#8.5 样本 1、2、3 最优干预方案)
[8.6 特征 - 方案匹配规律](#8.6 特征 - 方案匹配规律)
[9.1 指标筛选结果分析](#9.1 指标筛选结果分析)
[9.2 风险预警模型效果分析](#9.2 风险预警模型效果分析)
[9.3 干预方案效果分析](#9.3 干预方案效果分析)
[9.4 灵敏度分析](#9.4 灵敏度分析)
[10.1 模型优点](#10.1 模型优点)
[10.2 模型不足](#10.2 模型不足)
[10.3 改进与推广方向](#10.3 改进与推广方向)
[附录 A 核心 Python 代码](#附录 A 核心 Python 代码)
[附录 B 图表目录](#附录 B 图表目录)
[附录 C 样本 1-3 详细干预表](#附录 C 样本 1-3 详细干预表)
详情可以查看视频讲解
https://www.bilibili.com/video/BV1HfdLBWE9Y/
https://www.bilibili.com/video/BV1HfdLBWE9Y/
《2026妈妈杯数学建模竞赛助攻资料》
摘要
在人口老龄化加速背景下,中老年高血脂症已成为心脑血管疾病最主要诱因。现代医学风险评估多依赖血脂指标,缺乏中医体质与活动能力的综合考量。本文基于 1000 例中老年多维数据,构建 \\ "指标筛选 --- 风险预警 --- 干预优化"\\ 一体化模型,实现中西医结合的高血脂精准防控。
针对问题一,采用Pearson 相关 + LASSO 回归 + 随机森林重要性 三层递进筛选,得到痰湿质积分、TG、LDL-C、BMI、活动总分、ADL、空腹血糖、HDL-C 共 8 项关键指标,可同时表征痰湿程度并预警高血脂。通过多分类 Logistic 回归得到九种体质贡献度:痰湿质风险最高(OR=3.87),血瘀质、湿热质次之,平和质最低。
针对问题二,构建LightGBM 三级风险预警模型 ,准确率 89.2%,AUC=0.913。结合临床意义给出低、中、高风险明确阈值,并提取高风险核心特征组合:
(1)痰湿积分≥60 + LDL-C 异常 + 活动总分<40;
(2)痰湿积分≥80(独立高危);
(3)BMI≥28 + 痰湿积分≥55 + TG≥2.3。
针对问题三,以痰湿积分最小、成本最低、耐受度最优 为目标,构建多目标整数规划模型,用遗传算法求解。得到个性化 6 个月干预方案,并完成样本 1、2、3 的最优方案设计。结果显示:方案可使痰湿积分平均下降超 40%,全部满足≤2000 元成本约束,可直接用于临床。
本文模型可解释性强、精度高、成本低、易落地,为中老年高血脂 "治未病" 提供量化工具。
关键词:高血脂症;痰湿体质;风险预警;特征筛选;LightGBM;多目标优化;遗传算法;个性化干预
一、问题重述
1.1 问题背景
随着我国人口老龄化进程持续加快,中老年人群高血脂症的发病率呈现逐年攀升态势,已成为威胁中老年人群身心健康的主要慢性疾病之一,更是诱发冠心病、脑梗死、动脉粥样硬化等严重心脑血管疾病的核心危险因素,对公众健康与公共卫生体系构成了显著挑战。从医学研究视角来看,中医体质学与西医临床检测的深度融合,为中老年高血脂症的精准防控提供了新的研究方向------中医体质学明确指出,痰湿体质是高血脂症最主要的易感体质,其"痰湿内蕴、脾失健运"的核心病机,与西医中脂质代谢异常、脂质沉积于脉道的病理机制高度契合,二者的内在关联为高血脂症的风险预警与干预提供了双重理论支撑。同时,中老年人的日常活动能力直接影响体质状态与血脂代谢水平,活动能力的强弱与痰湿体质的调理效果、血脂指标的改善程度密切相关,是高血脂症防控过程中不可忽视的重要影响因素。正是基于这一背景,依托1000例中老年多维体检数据,聚焦中老年人群高血脂症防控的核心需求,要求融合中医体质、日常活动能力、西医理化指标等多维度信息,开展风险预警与个性化干预方案优化研究,为中老年高血脂症的"治未病"提供科学量化的解决方案。
1.2 研究任务
(1)从血常规与活动量表中筛选同时表征痰湿程度 + 预警高血脂 的关键指标,并量化九种体质贡献度。
(2)构建低、中、高 三级风险预警模型,明确阈值与划分依据,识别痰湿体质高风险特征组合。
(3)针对痰湿体质患者,在成本、耐受、强度约束下,构建 6 个月干预优化模型,给出患者特征 --- 最优方案匹配规律,并求解样本 1、2、3。
二、模型假设
(1)数据真实有效,缺失值与异常值处理后不影响整体分布。
(2)痰湿积分下降规则稳定:每周≥5 次,强度每升一级每月降 3%;同强度每加 1 次每月降 1%。
(3)年龄与活动总分对强度的约束为刚性约束。
(4)中医调理效果与等级正相关,个体差异可忽略。
(5)每月 = 4 周,6 个月 = 24 周,效果按月累积。
(6)6 个月总成本≤2000 元。
(7)不考虑合并症、用药、饮食等干扰因素。
(8)患者完全依从干预方案。
三、符号说明
|------------------------------------------------------------|--------------|-----------------|
| 符号 | 含义 | 单位 / 范围 |
|
| 初始痰湿积分 | 0~100 |
|
| 干预 t 个月后痰湿积分 | 0~100 |
|
| 甘油三酯 | mmol/L |
|
| 低密度脂蛋白 | mmol/L |
|
| 身体质量指数 | kg/m² |
|
| 活动总分 | 0~100 |
|
| 风险等级 | 1 低 / 2 中 / 3 高 |
|
| 第 i 种体质优势比 | --- |
|
| 中医调理等级 | 1/2/3 |
|
| 活动强度等级 | 1/2/3 |
|
| 每周运动次数 | 1~10 |
|
| 6 个月总成本 | 元 |
四、问题分析
4.1 问题一分析
问题一属于典型的特征选择与贡献度量化相结合的问题,核心核心需求是筛选出兼具双重属性的关键指标,既要能够精准表征痰湿体质的严重程度,又要具备对高血脂症发病风险的有效预测能力,二者缺一不可,只有同时满足这两个条件,筛选出的指标才能为后续的风险预警和干预方案优化提供可靠的数据支撑。考虑到单一筛选方法存在局限性,难以兼顾指标的相关性、稳定性和有效性,因此本文采用统计检验、稀疏回归与机器学习相结合的组合策略,通过多方法交叉验证、层层筛选,有效剔除冗余指标、规避多重共线性干扰,确保筛选结果的科学可靠;对于九种中医体质对高血脂症发病风险的贡献度量化,采用Logistic回归模型结合优势比(OR值)进行精准量化,以平和质为参照组,通过计算各体质的OR值,清晰呈现不同体质对高血脂发病风险的影响程度,明确高危体质类型,为后续针对性干预提供明确依据。
4.2 问题二分析
问题二属于多分类预测、规则提取与可解释性相结合的综合性问题,核心目标是构建能够精准划分高血脂症低、中、高三级风险的预警模型,同时提取可直接应用于基层临床的关键风险特征组合,确保模型不仅具备较高的预测精度,还具有较强的可解释性和可操作性。结合本次研究的实际特点,输入特征涵盖中医体质、活动能力、西医理化指标及基础人口学信息,维度较多且特征复杂,输出要求明确的三级风险分级,且模型应用场景主要面向基层医疗机构,基层医务人员对复杂模型的理解和操作能力有限,因此选用LightGBM算法构建预警模型,该算法不仅运算效率高、抗过拟合能力强,能有效处理高维数据和类别特征,兼顾预测精度与运算速度,还能通过SHAP(SHapley Additive exPlanations)值分析提取关键风险特征,清晰解释各特征对风险等级的影响程度,进一步挖掘高风险人群的核心特征组合,让模型结果更易被基层医务人员理解和应用,真正实现风险预警的精准化和实用化。
4.3 问题三分析
问题三是典型的多目标、多约束下的整数规划问题,核心任务是针对痰湿体质患者,在满足各项约束条件的前提下,构建个性化的6个月干预方案,实现多重目标的最优平衡。本次优化的核心目标有三个,分别是干预后痰湿积分最小化、6个月干预总成本最低化以及患者身体耐受度最大化,这三个目标相互关联、相互制约,需通过科学的权重分配实现综合最优;同时,方案设计需严格遵循各项约束条件,包括年龄对活动强度的刚性约束、活动总分对活动强度的约束、每周运动次数的范围约束(1~10次)以及6个月总成本不超过2000元的成本约束,确保方案的可行性和安全性。由于本次优化的决策变量(中医调理等级、活动强度等级、每周运动次数)均为离散变量,传统的线性规划方法难以实现全局寻优,因此采用遗传算法进行全局寻优,通过编码、适应度函数构建、选择、交叉、变异等迭代过程,在满足所有约束条件的基础上,找到兼顾三大目标的最优干预方案,同时总结出患者特征与最优干预方案的匹配规律,为不同特征的痰湿体质患者提供个性化的干预指导。
五、数据预处理
5.1 数据构成
数据共 1000 例,包括:
(1)中医体质九分类与积分
(2)ADL、IADL 活动评分
(3)血脂、血糖、尿酸、BMI
(4)高血脂诊断标签
(5)年龄、性别、吸烟、饮酒
5.2 缺失值与异常值处理
(1)数值型缺失:中位数填充
(2)分类型缺失:众数填充
(3)异常值:3σ 原则,剔除 12 例,有效样本 988 例
5.3 标准化与编码
(1)连续指标:Z-score 标准化
(2)分类变量:独热编码 / 标签编码
六、问题一模型建立与求解
6.1 三层递进式关键指标筛选模型
问题一的核心目标是筛选出兼具"精准表征痰湿体质严重程度"与"有效预警高血脂症发病风险"双重属性的关键指标,为后续风险预警模型构建和个性化干预方案优化提供可靠的特征支撑。考虑到单一特征筛选方法存在局限性------如相关性分析仅能反映指标间线性关联,无法剔除冗余变量;LASSO回归虽能实现稀疏筛选,但缺乏对特征重要性的量化;随机森林虽能精准排序特征重要性,却难以提前筛选出具有双重关联的指标,因此本文设计"相关性分析→LASSO稀疏筛选→随机森林重要性排序"的三层递进式筛选模型,通过多方法交叉验证、层层递进、相互补充,确保筛选结果的科学性、稳定性和实用性。该模型的核心思路的是:首先通过相关性分析初步筛选出与双目标均存在显著关联的候选指标,剔除无关联或弱关联指标;其次通过LASSO回归的L1正则化特性,剔除存在多重共线性的冗余指标,压缩特征维度;最后通过随机森林模型量化各指标的重要性,确定最终的关键指标集合,确保筛选出的指标既符合医学理论,又能满足后续建模需求。
为保证指标同时满足 "表征痰湿" 和 "预警高血脂",采用三层筛选:
相关性分析 → LASSO 稀疏筛选 → 随机森林重要性排序