【数学建模】数据预处理

在数学建模赛题中,官方给所有选手的数据可能受到主观或客观条件的影响有一定的问题,如果不进行数据的处理而直接使用的话可能对最终的结果造成一定的影响,因此为了保证数据的真实性和建模结果的可靠性,需要在建模之前对数据进行相关的预处理工作。

数据预处理一般包括:数据清洗,数据集成,数据变换和数据规约

数据清洗(数据中存在错误或异常数据,我们将这些数据找出并进行相关处理,使其变成常规的,近似正常的数据)

数据集成(将不同格式,不同获取规范,不同获取逻辑的数据集合在一块进行集中化处理)

数据变换(将数据按照一定的规范使它变成一个统一的数据集)

数据规约/数据降维(数据存在很多冗余或者数据的维度过高,计算起来十分复杂繁琐,因而使用关键的指标代替原先高维的数据)

数据清洗

缺失值处理

缺失值处理方法主要有三种:删除记录、数据插补、不处理

删除记录:指当该组数据某一个案的数据缺省时,删除组个案的数据,这种方法的优点是处理方便,但在数据较少时要慎重使用。

数据插补:使用不同的插补方法将缺省数据补齐。

最近邻插补:在记录中找到与缺失样本最接近的样本的该属性插补,可以通过计算对象间的欧氏距离衡量。

回归方法插补:根据已有数据和与其相关的其他变量的数据建立拟合模型来预测缺失值。

插值法:常用的插值法有很多,主要有拉格朗日插值法、牛顿插值法。

异常值处理

处理方法有两种:正态分布原则和画箱型图
1、正态分布3σ原则
数值分布在(μ-3σ,μ+3σ)中的概率为99.73%,其中μ为平均值,σ为标准差。
求解步骤:
1.计算均值μ和标准差σ;2.判断每个数据值是否在(μ-3σ,μ+3σ)内,不在则为异常值。
适用题目: 总体符合正态分布,例如人口数据、测量误差、生产加工质量、考试成绩等。
不适用题目: 总体符合其他分布,例如公交站人数排队论符合泊松分布

2、画箱型图
箱型图中,把数据从小到大排序。
下四分位数 Q1 是排第25%的数值,上四分位数 Q3 是排第75%的数值。
四分位距 IQR = Q3 - Q1 ,也就是排名第75%的减去第25%的数值
正态分布类似,设置个合理区间,在区间外的就是异常值。
一般设 Q1 − 1.5\* IQR , Q3 +1.5\* IQR 内为正常值。

数据变换

数据类型的一致化处理方法

一般问题的数据指标可能有"极大型","极小型","中间型","区间型"指标。

极大型:期望取值越大越好

极小型:期望取值越小越好

中间型:期望取值既不要太大,也不要太小,取适当区间为最好

区间型:期望取值最好是落在某个确定的区间内为最好
极小型:对某个极小型数据指标x,则令x'=1/x(x>0),或x'=M-x,即可将x极大化。

中间型:对某个中间型数据指标x,则令:

即可将中间型数据指标x极大化。

区间型:对某个区间型数据指标x,则令:

其中a,b为x的最佳稳定区间,c=max{a-m,M-b},M和m分别为x可能取值的最大值和最小值,即可将x极大化。

数据指标的无量纲化处理

在实际数据指标之间,往往存在着不可公度性(没有共同的基础、尺度和标准),直接应用是困难的,会出现"大数吃小数"(数据指标之间的量纲不同导致)的错误,从而导致结果的不合理。

常用方法:标准差法(数据比较均匀)、极值差法(数据分布不是很均匀,保留数据的原有特性)、功效系数法(极值差法基础改进)等。

定性指标(文字指标)的量化处理方法

在社会实践中,很多问题都涉及到定性因素(指标)的定量化处理问题。诸如:教学质量、科研水平、工作政绩、人员素质、各种满意度、信誉、态度、意识、观念、能力等因素有关的政治、社会、人文等领域的问题。如何对这些相关问题给出定量分析呢?

相关推荐
兜里只有三分钱~10 天前
快递索赔场景评测|魔珐星云职场法务数字人线下落地实测
数学建模·数字人·数字
一切皆是因缘际会10 天前
RLHF奖励坍塌:大模型Reward漂移机理
人工智能·数学建模·ai
一切皆是因缘际会10 天前
VLM注视头GazeHead:视觉注意力分区机理
人工智能·数学建模·ai
一切皆是因缘际会11 天前
LLM轻量化联邦微调机理
数据结构·人工智能·数学建模·ai
汉克老师11 天前
GESP7级C++考试语法知识(二、指数函数(3、综合练习)
c++·算法·数学建模·指数函数·gesp7级·复利
88号技师11 天前
2026年2月一区SCI-交叉传播优化算法Propagation Alongside Crossover-附Matlab免费代码
开发语言·算法·数学建模·matlab·优化算法
Leo.yuan11 天前
数据建模怎么做?一文解析8种经典数据建模方法
大数据·数学建模
一切皆是因缘际会12 天前
隐层表征解构:LLM感知式幻觉稀疏成因
算法·数学建模·ai·架构
2301_7644413313 天前
番茄钟+AI:高效专注的秘密武器
人工智能·算法·数学建模·动态规划·交互
hai31524754314 天前
一种通过空间几何转换进行软件编程计算的方式与现有计算的对比
人工智能·深度学习·数学建模·硬件架构·几何学·图论·拓扑学