2025年数学建模国赛C题超详细解题思路

2025年国赛如期开赛,C题作为本次本科组最简单、门槛最低的题目,初步预估选题人数可能超过总人数的50%,即比A B两个题目人数之和还要多。因此,本文将详细的为大家带来C题的解题思路,以便大家能够在C题目中脱颖而出。

注:每个赛区省奖各赛题获奖率一致,不存在选题人数多获奖率比AB要低的情况。

对于后续解题首先需要进行的为数据预处理,包含数据清晰异常值、缺失值处理,数据转码等操作。

异常值处理-题目存在大量不合理的数据,

l 19岁女性生育,不符合民法典要求,根据我国《民法典》第一千零四十七条规定,女性的法定结婚年龄为二十周岁。

l 体重存在极端异常的边缘数据

l 身高存在极端矮的边缘数据

缺失数据-存在不少数据的确实-部分数据可以补足、部分数据可直接删除(独立样本可直接删除)

l 八个末次月经指标数据不存在可直接删除

l 序号 187 编号 B044 的BMI丢失 但是可直接计算

数据转码-存在汉字 或 符号数据 方便后续建立数学模型

l 检测孕周(周数+天数) ,但是后续解题不需要天数,可直接删除处理

l 胎儿是否健康 ,是否可以转化为0 1

|--------------------------------------------|-------------------------------------------------|-----------------------------------------|
| 指标 | 男胎检测数据 | 女胎检测数据 |
| 序号 | 整数型;不连续,存在跳号(如 4→11);正整数递增 | 整数型;唯一标识,递增但有跳号(如 4→7) |
| 孕妇代码 | 字符串,格式 "A***"(如A001),唯一孕妇;部分孕妇多次检测 | 字符串,格式 "B***"(如B001),唯一孕妇;部分孕妇多次检测 |
| 年龄 | 23--43岁,主25--35 | 21--44 岁,主25--35,均值≈30 |
| 身高 | 144.0--175.0 cm,主155--169 cm,含小数(158.5) | 150.0--170.0 cm,主155--165 cm,标准差小 |
| 体重 | 70--110 kg;随孕周增加(如A042:106→110) | 66--106 kg;随孕周小幅波动(如B001:82→86) |
| 末次月经 | 日期型"YYYY-MM-DD HH:MM:SS";2022-11-18 至2023-12-04 | 日期型;部分缺失(如 B034);覆盖2022--2024 |
| IVF 妊娠 | "自然受孕"IUI(人工授精)IVF(试管婴儿) | "自然受孕"IVF(试管婴儿) |
| 检测日期 | 整数"YYYYMMDD",与孕周逻辑一致;同孕妇递增 | 整数"YYYYMMDD",范围20230413--20240708;同孕妇递增 |
| 检测抽血 | 1--4 次;以1 次和4 次常见 | 1--4 次;以2--3 次常见 |
| 检测孕周 | 11w--26w;格式"Xw"或"Xw+Y";随检测次数增大 | 12w+2--28w+1;格式"Xw+Y";集中在14w--24w |
| BMI | 27.6398--38.5141,整体偏高,多数≥28;部分肥胖 | 28.76--38.93,肥胖比例更高 |
| 原始读段 | 2,851,305--6,627,481;波动大;最大A039 | 3,418,274--7,846,336;分散,均值约500 万 |
| 比对比例 | 0.7426--0.8126;集中0.79--0.81;最低A041 | 0.7540--0.8100;集中0.79--0.81;稳定 |
| 重复比例 | 0.0265--0.0378;多0.028--0.035;最高A009 | 0.0248--0.0372;均值≈0.028;波动小 |
| 唯一比对数 | 2,123,333--5,118,164;与原始读段数正相关;最大A039 | 2,605,288--5,909,199;与原始读段数正相关 |
| GC 含量 | 0.3933--0.4105;主0.399--0.405;最高A022 | 0.3938--0.4074;主0.398--0.403 |
| Z 13 | -2.6154--3.5739;极端值A010=3.5739;部分异常 | -2.5978--2.8516;偏离0(如B018=2.8516) |
| Z 18 | -2.5951--6.0763;A010 最大6.0763,与T18 对应 | -2.3126--4.3884;高值(B013=4.3884)提示异常 |
| Z 21 | -2.1660--2.9018;A026=2.9018(T21) | -1.7309--2.2792;部分与AB 对应(B007=2.2792) |
| Z X 染色体 | -3.1788--2.5033;波动大;极端A010=-3.1788 | -1.9948--3.5709;绝对值较小,近似正态 |
| Z Y 染色体 | -3.2213--4.5094;A042=4.5094;多接近0 | (女胎空白) |
| Y 浓度 | -0.0037--0.1646;多为正,A005 最高0.1646; | (女胎空白) |
| X 浓度 | -0.0037--0.1526;A009 最高0.1526; | -0.0465--0.0278;均值≈0,波动小 |
| GC 含量 13 | 0.3715--0.3877;主0.377--0.382;A010=0.3877 | 0.3716--0.3872;稳定,SD<0.005 |
| GC 含量 18 号 | 0.3848--0.4006;主0.389--0.394;A010=0.3992 | 0.3836--0.3989;分布集中 |
| GC 含量 21 | 0.3917--0.4098;主0.397--0.403;A041=0.4099 | 0.3903--0.4094;常染色体中最高 |
| 被过滤比例 | 0.0160--0.0298;多0.020--0.025;A032=0.0298 | 0.0191--0.0362;均值≈0.024 |
| 非整倍体 AB | 空值/T13/T18/T21/T13T18/T13T18T21;空值最多; | 空值最多;异常含 T13/T18/T21/T13T18 |
| 怀孕次数 | "1""2""≥3";以"1" 和"≥3" 为主;"≥3"≈40% | 全部为 1 |
| 生产次数 | 0 或1;0≈70%,1≈30% | 全部为 0 |
| 是否健康 | 多为"是";仅A017 两次为"否",且AB 为空 | 全部为"是",无异常结局 |

问题1:Y染色体浓度与孕妇指标关系模型

问题1 试分析胎儿 Y 染色体浓度与孕妇的孕周数和 BMI 等指标的相关特性,给出相应的关系模型,并检验其显著性。

判断指标类型、数据分布方式选择不同的方式进行模型选择。进行初步相关性分析后,需要建立必要的函数关系,例如

问题2:BMI分组与最佳NIPT时点优化

问题2 临床证明,男胎孕妇的BMI 是影响胎儿Y染色体浓度的最早达标时间(即浓度达到或超过 4%的最早时间)的主要因素。试对男胎孕妇的BMI进行 合理分组 ,给出每组的BMI 区间和最佳NIPT时点,使得孕妇可能的潜在风险最小,并分析检测误差对结果的影响

问题二本质为分组+优化,分组为无标签分组、可以尝试K-means、层次次聚类。或者基于密度的聚类DBSCAN算法、高斯混合模型(GMM)。

优化模型-三要素决策变量、目标函数、约束条件。

风险函数建立

定义第
组孕妇在第
周检测的总风险函数:

问题3:多因素综合考虑的优化模型

问题3 男胎 Y 染色体浓度达标时间受多种因素(身高、体重、年龄等)的影响,试综合考虑这些因素、检测误差和胎儿的 Y 染色体浓度达标比例(即浓度达到或超过 4%的比例),根据男胎孕妇的BMI, 给出 合理分 组以及每组的最佳NIPT 时点,使得孕妇潜在风险最小,并分析检测误差对结果的影响。

Cox比例风险模型

建立达标时间的生存分析模型:

问题4:女胎异常判定方法

问题4 由于孕妇和女胎都不携带 Y 染色体,重要的是如何判定女胎是否异常。试以女胎孕妇的 21 号、18 号和 13 号染色体非整倍体(AB 列)为判定结果,综合考虑 X 染色体及上述染色体的 Z 值、GC 含量、读段数及相关比例、BMI 等因素,给出女胎异常的判定方法。

多分类逻辑回归模型

对于三种异常类型(13、18、21号染色体异常),建立多项逻辑回归:

相关推荐
We....4 小时前
Java集合---Collection接口和Map接口
java·开发语言
NULL Not NULL4 小时前
ES6+新特性:现代JavaScript的强大功能
开发语言·前端·javascript
jiaway4 小时前
【C语言】第二课 位运算
c语言·开发语言·算法
IT北辰4 小时前
初学者也能懂!用Python做房屋销售数据分析,从0到1上手实战(附源码和数据)
开发语言·python·数据分析
蓝倾9764 小时前
1688拍立淘接口对接实战案例
java·开发语言·数据库·python·电商开放平台·开放api接口
或与且与或非4 小时前
Rust+slint实现一个登录demo
开发语言·rust·状态模式
Vae_Mars4 小时前
C语言中的关键字
c语言·开发语言
怀旧,4 小时前
【C++】17. AVL树实现
java·开发语言·c++
画个逗号给明天"4 小时前
C/C++关键字——union
c语言·开发语言·c++