多分类logistic回归分析案例教程

因变量为无序多分类变量,比如研究成人早餐选择的相关因素,早餐种类包括谷物类、燕麦类、复合类,此时因变量有三种结局,而且三种早餐是平等的没有顺序或等级属性,此类回归问题,可以使用多分类Logistic回归进行分析。

1. 模型原理

多分类Logistic有时也称为多元Logistic回归,从因变量的多个类别中选一个水平作为对照,拟合其他类别水平相较于该对照水平的Logistic回归模型,因此k个分类水平的因变量,最终得到k-1个Logistic回归模型。

2. 重要概念

有以下主要概念:

(1) 多分类Logistic回归模型的参数估计与二元Logistic类似,同样采用最大似然法。

(2) 在模型检验方面和二元Logistic回归模型有一些差别,常用的拟合优度检验为Pearson卡方检验和偏差似然比卡方检验。其他概念和二元Logistic回归基本类似。

3. 多分类Logistic实例分析

【例5-9】以1992年美国总统选举的部分数据为例,总统投票对象包括Bush、Perot、Clinton,数据中变量说明见表 5-27,试分析选民投票情况。案例数据来源于卢纹岱(2006),数据文档见"例5-9.xls"。

1) 基本条件判断

研究投票候选人的相关影响因素,投票对象变量为"pres",有3个分类水平,为无序多分类变量,总投票数为1847,通过【通用方法】→【频数】可知,"pres"三个投票对象 Perot、Bush、Clinton依次获得278票、661票、908票,样本量能满足Logistic回归的经验要求,本例仅包括年龄、性别两个自变量,暂不考察多重共线性问题。

本例拟以Perot作为参照水平采用多分类Logistic回归进行分析。

2) 建立Logistic回归模型

数据读入平台后,仪表盘依次选择【进阶方法】→【多分类Logit】模块,将"pres"变量拖拽至【Y(定类)】,"age"和"sex"变量拖拽至【X(定量/定类)】。此处应注意,常见的参照水平主要包括第一个类别或最后一个类别,平台默认是以第一个数字编码或较小的数据作为参照组。

多分类Logistic回归的自变量可以是定量数据,或者定类数据,如果是多分类定类数据可根据实际情况提前做哑变量处理,如果未做哑变量转换,移入【X(定量/定类)】后,平台将按定量数据进行回归分析。勾选【保存预测类别】,命令平台对案例数据进行类别预测,操作设定界面如图 5-27所示,最后单击【开始分析】。

多分类Logistic回归输出包括基本汇总、模型似然比检验、回归分析结果汇总、预测准确率等结果。在结果解读和分析时,可参考二元logistic回归,先判断模型总体是否有效,评价模型拟合质量,最后检验各自变量因素的显著性及分析OR值结果。

3) Logistic回归模型的检验与评价

和二元Logistic回归一样,多分类Logistic回归模型总体检验仍然采用的是似然比卡方检验。

如上表5-28所示,经检验,卡方值=89.743,p﹤0.05,认为模型总体上有统计学意义,模型有效。表中的AIC、BIC,以及-2LL,和二元Logistic回归解读一致,均为取值越小越好,主要用于多个模型间的比较,此处可解释分析的意义不大。

也可以用预测准确率来评价模型的拟合优度,如上表5-29所示。本次拟合的多分类Logistic回归模型,对Perot、Bush的投票预测准确率都很低,对Clinton投票预测准确率可达到99.34%。

4) 回归系数与OR值解释与分析

k个分类水平的因变量进行多分类Logistic回归,将得到k-1个模型,每个模型独立计算各自变量对因变量的回归结果,因此在表5-30中,应注意该表格分为上下两部分,前4行为与Petor相比较,投票给Bush的影响因素分析;而后4行为与Petor相比较,投票给Clinton的影响因素分析。

(1) 与Petor相比较,投票给Bush的影响因素分析:

经Wald卡方检验,性别sex(卡方值=4.292,p ﹤0.05)、年龄age(卡方值=38.921,p﹤0.01),认为性别和年龄对投选Bush的影响有统计学意义。这两个因素的偏回归系数均为正数,说明与投选Bush有正相关关系。相对应的OR值均大于1,OR值95% CI不包括1,提示性别、年龄对投票结果有影响。

以性别为例,OR=1.351,表示与给Petor投票相比较,女性投票给Bush的可能性是男性的1.351倍(默认是低编码水平为参照)。

(2) 与Petor相比较,投票给Clinton的影响因素分析:

经Wald卡方检验,性别sex(卡方值=27.191,p ﹤0.01)、年龄age(卡方值=48.151,p﹤0.01),认为性别和年龄对投选Clinton的影响有统计学意义。这两个因素的偏回归系数均为正数,说明与投选Clinton有正相关关系。相对应的OR值均大于1,OR值95% CI不包括1,提示性别、年龄对投票结果有影响。

性别的OR=2.084,为促进因素,表示与Petor相比较,女性投票给Clinton的可能性是男性的2.084倍。年龄的OR=1.035, 同样也属于促进性因素,表示与Petor相比较,年龄越大的群体,他们会更加愿意投票给Clinton。

5) 结果报告

根据表中常数项和偏回归系数,可以写出两个模型的表达式为:

ln(Bush/Perot)=-0.992 + 0.301×sex + 0.031×age

ln(Clinton/Perot)=-1.486 + 0.734×sex + 0.034×age

性别、年龄对投票结果的影响均有统计学意义,是候选人选取成功的显著影响因素。


以上内容摘自**《SPSSAU科研数据分析方法与应用》**第5章------相关影响关系研究,书中不仅涵盖了数据清理、统计分析和模型构建等内容,还提供了丰富的案例,以便于读者在实际研究中应用。

相关推荐
麦田里的稻草人w25 分钟前
【数据分析实战】(一)—— JOJO战力图
数据挖掘·数据分析
思通数科多模态大模型1 小时前
10大核心应用场景,解锁AI检测系统的智能安全之道
人工智能·深度学习·安全·目标检测·计算机视觉·自然语言处理·数据挖掘
爱喝白开水a2 小时前
Sentence-BERT实现文本匹配【分类目标函数】
人工智能·深度学习·机器学习·自然语言处理·分类·bert·大模型微调
封步宇AIGC2 小时前
量化交易系统开发-实时行情自动化交易-4.2.3.指数移动平均线实现
人工智能·python·机器学习·数据挖掘
B站计算机毕业设计超人4 小时前
计算机毕业设计SparkStreaming+Kafka新能源汽车推荐系统 汽车数据分析可视化大屏 新能源汽车推荐系统 汽车爬虫 汽车大数据 机器学习
数据仓库·爬虫·python·数据分析·kafka·数据可视化·推荐算法
封步宇AIGC6 小时前
量化交易系统开发-实时行情自动化交易-4.2.1.简单移动平均线实现
人工智能·python·机器学习·数据挖掘
封步宇AIGC6 小时前
量化交易系统开发-实时行情自动化交易-4.1.4.A股布林带(BOLL)实现
人工智能·python·机器学习·数据挖掘
forestsea8 小时前
Spring Boot 与 Java 决策树:构建智能分类系统
java·人工智能·spring boot·深度学习·决策树·机器学习·数据挖掘
Crossoads9 小时前
【汇编语言】call 和 ret 指令(一) —— 探讨汇编中的ret和retf指令以及call指令及其多种转移方式
android·开发语言·javascript·汇编·人工智能·数据挖掘·c#
曼城周杰伦18 小时前
表格不同类型的数据如何向量化?
人工智能·机器学习·分类·数据挖掘·sklearn·word2vec