多分类logistic回归分析案例教程

因变量为无序多分类变量,比如研究成人早餐选择的相关因素,早餐种类包括谷物类、燕麦类、复合类,此时因变量有三种结局,而且三种早餐是平等的没有顺序或等级属性,此类回归问题,可以使用多分类Logistic回归进行分析。

1. 模型原理

多分类Logistic有时也称为多元Logistic回归,从因变量的多个类别中选一个水平作为对照,拟合其他类别水平相较于该对照水平的Logistic回归模型,因此k个分类水平的因变量,最终得到k-1个Logistic回归模型。

2. 重要概念

有以下主要概念:

(1) 多分类Logistic回归模型的参数估计与二元Logistic类似,同样采用最大似然法。

(2) 在模型检验方面和二元Logistic回归模型有一些差别,常用的拟合优度检验为Pearson卡方检验和偏差似然比卡方检验。其他概念和二元Logistic回归基本类似。

3. 多分类Logistic实例分析

【例5-9】以1992年美国总统选举的部分数据为例,总统投票对象包括Bush、Perot、Clinton,数据中变量说明见表 5-27,试分析选民投票情况。案例数据来源于卢纹岱(2006),数据文档见"例5-9.xls"。

1) 基本条件判断

研究投票候选人的相关影响因素,投票对象变量为"pres",有3个分类水平,为无序多分类变量,总投票数为1847,通过【通用方法】→【频数】可知,"pres"三个投票对象 Perot、Bush、Clinton依次获得278票、661票、908票,样本量能满足Logistic回归的经验要求,本例仅包括年龄、性别两个自变量,暂不考察多重共线性问题。

本例拟以Perot作为参照水平采用多分类Logistic回归进行分析。

2) 建立Logistic回归模型

数据读入平台后,仪表盘依次选择【进阶方法】→【多分类Logit】模块,将"pres"变量拖拽至【Y(定类)】,"age"和"sex"变量拖拽至【X(定量/定类)】。此处应注意,常见的参照水平主要包括第一个类别或最后一个类别,平台默认是以第一个数字编码或较小的数据作为参照组。

多分类Logistic回归的自变量可以是定量数据,或者定类数据,如果是多分类定类数据可根据实际情况提前做哑变量处理,如果未做哑变量转换,移入【X(定量/定类)】后,平台将按定量数据进行回归分析。勾选【保存预测类别】,命令平台对案例数据进行类别预测,操作设定界面如图 5-27所示,最后单击【开始分析】。

多分类Logistic回归输出包括基本汇总、模型似然比检验、回归分析结果汇总、预测准确率等结果。在结果解读和分析时,可参考二元logistic回归,先判断模型总体是否有效,评价模型拟合质量,最后检验各自变量因素的显著性及分析OR值结果。

3) Logistic回归模型的检验与评价

和二元Logistic回归一样,多分类Logistic回归模型总体检验仍然采用的是似然比卡方检验。

如上表5-28所示,经检验,卡方值=89.743,p﹤0.05,认为模型总体上有统计学意义,模型有效。表中的AIC、BIC,以及-2LL,和二元Logistic回归解读一致,均为取值越小越好,主要用于多个模型间的比较,此处可解释分析的意义不大。

也可以用预测准确率来评价模型的拟合优度,如上表5-29所示。本次拟合的多分类Logistic回归模型,对Perot、Bush的投票预测准确率都很低,对Clinton投票预测准确率可达到99.34%。

4) 回归系数与OR值解释与分析

k个分类水平的因变量进行多分类Logistic回归,将得到k-1个模型,每个模型独立计算各自变量对因变量的回归结果,因此在表5-30中,应注意该表格分为上下两部分,前4行为与Petor相比较,投票给Bush的影响因素分析;而后4行为与Petor相比较,投票给Clinton的影响因素分析。

(1) 与Petor相比较,投票给Bush的影响因素分析:

经Wald卡方检验,性别sex(卡方值=4.292,p ﹤0.05)、年龄age(卡方值=38.921,p﹤0.01),认为性别和年龄对投选Bush的影响有统计学意义。这两个因素的偏回归系数均为正数,说明与投选Bush有正相关关系。相对应的OR值均大于1,OR值95% CI不包括1,提示性别、年龄对投票结果有影响。

以性别为例,OR=1.351,表示与给Petor投票相比较,女性投票给Bush的可能性是男性的1.351倍(默认是低编码水平为参照)。

(2) 与Petor相比较,投票给Clinton的影响因素分析:

经Wald卡方检验,性别sex(卡方值=27.191,p ﹤0.01)、年龄age(卡方值=48.151,p﹤0.01),认为性别和年龄对投选Clinton的影响有统计学意义。这两个因素的偏回归系数均为正数,说明与投选Clinton有正相关关系。相对应的OR值均大于1,OR值95% CI不包括1,提示性别、年龄对投票结果有影响。

性别的OR=2.084,为促进因素,表示与Petor相比较,女性投票给Clinton的可能性是男性的2.084倍。年龄的OR=1.035, 同样也属于促进性因素,表示与Petor相比较,年龄越大的群体,他们会更加愿意投票给Clinton。

5) 结果报告

根据表中常数项和偏回归系数,可以写出两个模型的表达式为:

ln(Bush/Perot)=-0.992 + 0.301×sex + 0.031×age

ln(Clinton/Perot)=-1.486 + 0.734×sex + 0.034×age

性别、年龄对投票结果的影响均有统计学意义,是候选人选取成功的显著影响因素。


以上内容摘自**《SPSSAU科研数据分析方法与应用》**第5章------相关影响关系研究,书中不仅涵盖了数据清理、统计分析和模型构建等内容,还提供了丰富的案例,以便于读者在实际研究中应用。

相关推荐
IT古董5 小时前
【机器学习】机器学习的基本分类-强化学习-策略梯度(Policy Gradient,PG)
人工智能·机器学习·分类
落魄君子5 小时前
GA-BP分类-遗传算法(Genetic Algorithm)和反向传播算法(Backpropagation)
算法·分类·数据挖掘
四口鲸鱼爱吃盐5 小时前
Pytorch | 从零构建GoogleNet对CIFAR10进行分类
人工智能·pytorch·分类
落魄君子5 小时前
ELM分类-单隐藏层前馈神经网络(Single Hidden Layer Feedforward Neural Network, SLFN)
神经网络·分类·数据挖掘
四口鲸鱼爱吃盐7 小时前
Pytorch | 从零构建MobileNet对CIFAR10进行分类
人工智能·pytorch·分类
Altair澳汰尔10 小时前
数据分析和AI丨知识图谱,AI革命中数据集成和模型构建的关键推动者
人工智能·算法·机器学习·数据分析·知识图谱
call me by ur name10 小时前
VLM--CLIP作分类任务的损失函数
人工智能·机器学习·分类
Python机器学习AI10 小时前
分类模型的预测概率解读:3D概率分布可视化的直观呈现
算法·机器学习·分类
机器学习之心15 小时前
BiTCN-BiGRU基于双向时间卷积网络结合双向门控循环单元的数据多特征分类预测(多输入单输出)
深度学习·分类·gru
qingyunliushuiyu15 小时前
企业为何需要可视化数据分析系统
数据挖掘·数据分析·数据采集·数据可视化·数据分析系统