多分类logistic回归分析案例教程

因变量为无序多分类变量,比如研究成人早餐选择的相关因素,早餐种类包括谷物类、燕麦类、复合类,此时因变量有三种结局,而且三种早餐是平等的没有顺序或等级属性,此类回归问题,可以使用多分类Logistic回归进行分析。

1. 模型原理

多分类Logistic有时也称为多元Logistic回归,从因变量的多个类别中选一个水平作为对照,拟合其他类别水平相较于该对照水平的Logistic回归模型,因此k个分类水平的因变量,最终得到k-1个Logistic回归模型。

2. 重要概念

有以下主要概念:

(1) 多分类Logistic回归模型的参数估计与二元Logistic类似,同样采用最大似然法。

(2) 在模型检验方面和二元Logistic回归模型有一些差别,常用的拟合优度检验为Pearson卡方检验和偏差似然比卡方检验。其他概念和二元Logistic回归基本类似。

3. 多分类Logistic实例分析

【例5-9】以1992年美国总统选举的部分数据为例,总统投票对象包括Bush、Perot、Clinton,数据中变量说明见表 5-27,试分析选民投票情况。案例数据来源于卢纹岱(2006),数据文档见"例5-9.xls"。

1) 基本条件判断

研究投票候选人的相关影响因素,投票对象变量为"pres",有3个分类水平,为无序多分类变量,总投票数为1847,通过【通用方法】→【频数】可知,"pres"三个投票对象 Perot、Bush、Clinton依次获得278票、661票、908票,样本量能满足Logistic回归的经验要求,本例仅包括年龄、性别两个自变量,暂不考察多重共线性问题。

本例拟以Perot作为参照水平采用多分类Logistic回归进行分析。

2) 建立Logistic回归模型

数据读入平台后,仪表盘依次选择【进阶方法】→【多分类Logit】模块,将"pres"变量拖拽至【Y(定类)】,"age"和"sex"变量拖拽至【X(定量/定类)】。此处应注意,常见的参照水平主要包括第一个类别或最后一个类别,平台默认是以第一个数字编码或较小的数据作为参照组。

多分类Logistic回归的自变量可以是定量数据,或者定类数据,如果是多分类定类数据可根据实际情况提前做哑变量处理,如果未做哑变量转换,移入【X(定量/定类)】后,平台将按定量数据进行回归分析。勾选【保存预测类别】,命令平台对案例数据进行类别预测,操作设定界面如图 5-27所示,最后单击【开始分析】。

多分类Logistic回归输出包括基本汇总、模型似然比检验、回归分析结果汇总、预测准确率等结果。在结果解读和分析时,可参考二元logistic回归,先判断模型总体是否有效,评价模型拟合质量,最后检验各自变量因素的显著性及分析OR值结果。

3) Logistic回归模型的检验与评价

和二元Logistic回归一样,多分类Logistic回归模型总体检验仍然采用的是似然比卡方检验。

如上表5-28所示,经检验,卡方值=89.743,p﹤0.05,认为模型总体上有统计学意义,模型有效。表中的AIC、BIC,以及-2LL,和二元Logistic回归解读一致,均为取值越小越好,主要用于多个模型间的比较,此处可解释分析的意义不大。

也可以用预测准确率来评价模型的拟合优度,如上表5-29所示。本次拟合的多分类Logistic回归模型,对Perot、Bush的投票预测准确率都很低,对Clinton投票预测准确率可达到99.34%。

4) 回归系数与OR值解释与分析

k个分类水平的因变量进行多分类Logistic回归,将得到k-1个模型,每个模型独立计算各自变量对因变量的回归结果,因此在表5-30中,应注意该表格分为上下两部分,前4行为与Petor相比较,投票给Bush的影响因素分析;而后4行为与Petor相比较,投票给Clinton的影响因素分析。

(1) 与Petor相比较,投票给Bush的影响因素分析:

经Wald卡方检验,性别sex(卡方值=4.292,p ﹤0.05)、年龄age(卡方值=38.921,p﹤0.01),认为性别和年龄对投选Bush的影响有统计学意义。这两个因素的偏回归系数均为正数,说明与投选Bush有正相关关系。相对应的OR值均大于1,OR值95% CI不包括1,提示性别、年龄对投票结果有影响。

以性别为例,OR=1.351,表示与给Petor投票相比较,女性投票给Bush的可能性是男性的1.351倍(默认是低编码水平为参照)。

(2) 与Petor相比较,投票给Clinton的影响因素分析:

经Wald卡方检验,性别sex(卡方值=27.191,p ﹤0.01)、年龄age(卡方值=48.151,p﹤0.01),认为性别和年龄对投选Clinton的影响有统计学意义。这两个因素的偏回归系数均为正数,说明与投选Clinton有正相关关系。相对应的OR值均大于1,OR值95% CI不包括1,提示性别、年龄对投票结果有影响。

性别的OR=2.084,为促进因素,表示与Petor相比较,女性投票给Clinton的可能性是男性的2.084倍。年龄的OR=1.035, 同样也属于促进性因素,表示与Petor相比较,年龄越大的群体,他们会更加愿意投票给Clinton。

5) 结果报告

根据表中常数项和偏回归系数,可以写出两个模型的表达式为:

ln(Bush/Perot)=-0.992 + 0.301×sex + 0.031×age

ln(Clinton/Perot)=-1.486 + 0.734×sex + 0.034×age

性别、年龄对投票结果的影响均有统计学意义,是候选人选取成功的显著影响因素。


以上内容摘自**《SPSSAU科研数据分析方法与应用》**第5章------相关影响关系研究,书中不仅涵盖了数据清理、统计分析和模型构建等内容,还提供了丰富的案例,以便于读者在实际研究中应用。

相关推荐
m0_7434148526 分钟前
【天线&其他】大疆无人机热成像人员目标检测系统源码&数据集全套:改进yolo11-bifpn-SDI
分类
小码贾43 分钟前
评估 机器学习 回归模型 的性能和准确度
人工智能·机器学习·回归·scikit-learn·性能评估
全栈开发圈2 小时前
新书速览|Spark SQL大数据分析快速上手
sql·数据分析·spark
快乐点吧3 小时前
BERT 模型在句子分类任务中的作用分析笔记
笔记·分类·bert
我就说好玩4 小时前
2020年美国总统大选数据分析与模型预测
大数据·python·数据挖掘·数据分析·pandas·sklearn
qq_433716954 小时前
测试分层:减少对全链路回归依赖的探索!
自动化测试·软件测试·功能测试·测试工具·回归·pytest·postman
Aloudata5 小时前
在全域数据整合过程中,如何确保数据的一致性和准确性
大数据·数据库·人工智能·数据挖掘·数据分析
小馒头学python5 小时前
【机器学习】机器学习回归模型全解析:线性回归、多项式回归、过拟合与泛化、向量相关性与岭回归的理论与实践
人工智能·python·机器学习·回归·线性回归
安静的_显眼包O_o5 小时前
【机器学习】连续属性离散化与sklearn.preprocessing.KBinsDiscretizer
数据挖掘·数据分析