前言
#大道之行,在于坚持
#本期内容:二分类Logistic回归模型
#由于导师最近布置了学习SPSS这款软件的任务,因此想来平台和大家一起交流下学习经验,这期推送内容接上一次高级教程第九章的学习笔记,希望能得到一些指正和帮助~
粉丝及官方意见说明
#针对官方爸爸的意见说的推送缺乏操作过程的数据案例文件澄清如下:1、操作演示的数据全部由我本人随意假设输进去的,重在演示操作;2、本人也只是在学习阶段,希望友友们能谅解哈,手里有数据的宝子当然更好啦,没有咱就自己假设数据练习一下也没多大关系的哈;3、我也会在后续教程中尽量增加一些数据的必要性说明;4、大家有什么好的意见也可以在评论区一起交流吖~
第十章一些学习笔记
- SPSS中加权最小二乘法(WLS)对二分类因变量的数据模型估计存在两个缺陷:1、取值区间【模型左边区间与模型右边区间不能很好的对应上】;2、曲线关联【某一类别发生的概率常常不是直线关系,而是S形曲线关系】。--统计分析高级教程(第三版)P179
- SPSS中的Logit变换与Logitsic回归:1、Logit变换:将原来发生概率和不发生概率之比(odds,优势、比数)取Ln对数的变换;2、Logitsic回归:用Logit(P)作为因变量的线性回归模型。二分类Logitsic回归模型的适用条件:1、因变量为二分类变量或某事件的发生率;2、自变量与Logit(P)之间为线性关系;3、残差合计为0且服从二项分布(这里注意:若因变量不服从二项分布,则残差也不服从);4、各个Case之间相互独立;5、该回归可容纳的因变量数目为较少的哪一类数目除以10的数即为可容纳因变量的数目,反算可知大致需要的样本量。其他补充概念:1、优势比(odds ratio,OR):两个情况下的odds之比,反应两个情况发生概率大小的比较;2、Logistic回归系数:该系数由于Logit变换与OR值有着直接关系。--统计分析高级教程(第三版)P180-181
- SPSS中哑变量的编码方式:1、指标对比(indicator)【第一个或者最后一个做对比】;2、简单对比(simple)【类似指标对比】;3、差别对比(difference)【与其前面所有平均水平进行比较】;4、赫尔默特对比(Helmert)【与其后面所有平均水平进行比较】;5、重复对比(repeated)【除了第一水平外,与前面相邻水平进行比较】;6、多项式对比(polynomial)【仅用于数值型分类变量】;7、离差对比(deviation)【除了所规定的参照水平外,其余每个水平均与总体平均水平比较】;8、special(matrix)【只能通过编程实现】。SPSS中设置哑变量的注意事项:1、参照水平最好有实际意义;2、参照水平组应有一定的频数做保证;3、手工生成哑变量;4、对有序自变量的分析。--统计分析高级教程(第三版)P187-189
- SPSS中筛选无影响或者小影响变量的检验:1、Wald检验【与总体均值的统计量有点像,只是比其多了平方,由于该检验没有考虑各因素的综合作用,当共线性明显时,该检验结果不可靠】;2、似然比检验【likelihood ratio test,效果越好,似然函数值越大,该检验是基于整个模型拟合进行的,结果最为可靠】;3、比分检验【score test,该检验常用于筛选自变量,与卡方分析中的卡方MH等价,该检验结果一般与似然比相同】。SPSS中筛选自变量的方法:1、向前法【forward,均采用比分检验,条件参数估计似然比检验(向前:条件)、偏最大似然估计的似然比检验(向前:LR,最可靠,但其能保证似然值最大,却不能保证预测精度最高)、Wald卡方检验(向前:Wald)】;2、向后法【backward】。--统计分析高级教程(第三版)P190-191
- SPSS中Logistic回归模型进阶:1、模型拟合效果判断【对数似然值(值越小,拟合效果越好)、伪决定系数(由于其容纳信息量有限,故大小不会像线性回归的决定系数那么大)、预测正确率可以在选项的分离分界值中设定、ROC曲线可以直接利用预测数据进行评判预测正确率效果】;2、拟合优度检验【自变量组合(即各个自变量进行组合),饱和模型(若模型中自变量组合个数比模型参数个数多一个的模型称为饱和模型,相应的参数更少的模型称为非饱和模型,也称为简约模型(reduced model),大多数情况我们更愿意采用合适的非饱和模型进行分析,因为只要控制了影响因素后,该模型就可以等价于饱和模型)检验这两个模型有无差异的检验就称为拟合优度检验(goodness-of-fit test),拟合优度检验只能说明模型信息是否充分被提取,却不能说明预测效果一定好,常用的拟合优度检验方法有Pearson拟合优度检验[其检验统计量就是普通卡方检验的统计量,P值大于0.05说明拟合良好,反之较差]、Deviance拟合优度检验[P值大于0.05说明拟合良好,反之较差]、似然比检验[P值大于0.05说明拟合良好,反之较差]、霍斯默-莱梅肖(Hosmer-Lemeshow)检验[常用于自变量很多或自变量包括连续变量的情况,也适用与各自变量组合样本量足够大的情况]】。--统计分析高级教程(第三版)P197-200
第十章一些操作方法
二分类Logistic回归模型
数据假设(有数据的话可以跳过这一步)
低重的因素分析
结果解释
分类自变量的定义与比较方法
定义哑变量分析
自变量的筛选方法与逐步回归(主要是排除一些对因变量无影响或者小影响的自变量)
假设数据(有数据当然更好哈)
逐步回归
结果分析
弗思(Firth)Logistic回归
【主要用于分析一些极端案例】(SPSS未提供Firth logistic回归方法,需要R插件,故这里没办法展示分析截图)
认识数据
完全分离(complete separation)数据和拟完全分离(quasi-complete separation)数据;
若数据是以频数方式录入,在分析之前需要进行个案加权,指定count为权重变量;
拟合优度检验【SPSS中采用霍斯默-莱梅肖(Hosmer-Lemeshow)检验】
残差分析
若存在共线性问题,可以进行共线性诊断。
结束语
#好啦~,以上就是我SPSS第二十八期学习笔记------高级教程第十章的学习情况啦~,希望能与大家交流学习经验,共同进步吖~
#考虑高级教程的难度与深度,主要是内容太多辣,后续依然会尽力更新内容~争取日更!
#也非常感谢大家对我的一路陪伴,宝子们的关注、支持和打赏就是up儿不断更新滴动力,我近期也会坚持学习SPSS,更新相应的学习内容及笔记到平台上,咱们下期高级教程不见不散~