数学建模【分类模型】

一、分类模型简介

本篇将介绍分类模型。对于二分类模型,我们将介绍逻辑回归(logistic regression)和Fisher线性判别分析两种分类算法;对于多分类模型,我们将简单介绍SPSS中的多分类线性判别分析和多分类逻辑回归。

分类模型,顾名思义将数据分类。如有一堆苹果和橙子,有它们的重量,大小,颜色等数据,将它们根据数据分为两类,之后如果给出数据,可以进行一定的判断,这个只有数据的是苹果还是橙子。

二、适用赛题

预测类

  • 由已知数据处理分类得到模型
  • 对后来的数据进行预测

三、模型流程

四、流程分析

本篇中的逻辑回归和Fisher线性判别不做证明,且逻辑回归和Fisher线性判别推荐使用SPSS软件进行操作

1.确定分类

分类模型有二分类和多分类两种,开始先得确定要分多少类。比如上面的苹果和橙子例子就是二分类;如果水果种类再多点,像苹果、橙子、柠檬和橘子,就是多分类问题。

2.二分类
①逻辑回归

对于因变量为分类变量的情况,我们可以使用逻辑回归进行处理。把y看成事件发生的概率,y ≥ 0.5表示发生;y < 0.5表示不发生。比如可以说y ≥ 0.5是苹果,y < 0.5是橙子。

线性概率模型(Linear Probability Model 简记LPM)

由于后者有解析表达式(而标准正态分布的cdf没有),所以计算logistic模型比probit模型更为方便。

②Fisher线性判别分析

LDA(Linear Discriminant Analysis)是一种经典的线性判别方法,又称Fisher判别分析。该方法思想比较简单:给定训练集样例,设法将样例投影到一维的直线上,使得同类样例的投影点尽可能接近和密集,异类投影点尽可能远离。

可借助SPSS软件直接得到结果。

3.多分类

多分类的操作和二分类类似,这里不再赘述。

4.合理性
如果预测结果较差怎么办?

可在Logistic回归模型中加入平方项、交互项等。

但在加入平方项之后,虽然预测能力提高了,但有可能会出现过拟合现象。

也就是对于样本数据的预测非常好,但是对于样本外的数据的预测效果可能会很差。

所以如何确定合适的模型?

把数据分为训练组和测试组,用训练组的数据来估计出模型,再用测试组的数据来进行测试。(训练组和测试组的比例一般设置为80%和20%)

注意:为了消除偶然性的影响,可以对上述步骤多重复几次,最终对每个模型求--个平均的准确率,这个步骤称为交叉验证。

5.预测

根据给出的数据,计算得到属于哪个类别的可能性最大。

相关推荐
雍凉明月夜5 小时前
深度学习网络笔记Ⅲ(注意力机制)
笔记·深度学习·神经网络·分类
ASD123asfadxv8 小时前
齿轮端面缺陷检测与分类_DINO-4Scale实现与训练_1
人工智能·分类·数据挖掘
2501_936146049 小时前
鱼类识别与分类:基于freeanchor_x101-32x4d_fpn_1x_coco的三种鱼类自动检测
人工智能·分类·数据挖掘
王哈哈^_^14 小时前
【完整源码+数据集】道路拥塞数据集,yolo道路拥塞检测数据集 8921 张,交通拥堵识别数据集,路口拥塞识别系统实战教程
深度学习·算法·yolo·目标检测·计算机视觉·分类·毕业设计
傻啦嘿哟1 天前
Python自动整理音乐文件:按艺术家和专辑分类歌曲
数据库·python·分类
算法与编程之美1 天前
探索不同的损失函数对分类精度的影响.
人工智能·算法·机器学习·分类·数据挖掘
hans汉斯1 天前
基于数据重构与阈值自适应的信用卡欺诈不平衡分类模型研究
大数据·算法·机器学习·重构·分类·数据挖掘·机器人
Maxwell_li11 天前
机器学习知识点梳理(回归模型、分类模型、聚类模型、评估方法)-思维导图
机器学习·分类·回归·聚类
Maxwell_li11 天前
机器学习知识点梳理(回归模型、分类模型、聚类模型、评估方法)
机器学习·分类·回归·学习方法·聚类·改行学it
UID96222 天前
[特殊字符] 无级变速传动(CVT)技术突破之道 | 易经×数学×工程的跨维度破解方案
算法·数学建模·开源