使用R语言进行Logistic回归分析(2)

一、数据集描述,问题要求

下表是40位肺癌病人的生存资料,X1表示生活行为能力平分(1到100),X2为病人的年龄(年),X3由诊断到进入研究的时间(月),X4表示肿瘤的类型('0'表示鳞瘤,'1'表示小型细胞癌,'3'表示腺癌,'4'表示大型细胞癌)X5表示化疗的方法('1'表示常规,'0'表示试验新法);Y表示病人的生存时间('0'表示生存时间短,'生存时间小于200天,'1'表示生存时间长,生存时间大于等于200天)

要求:1、建立E(y)=P(Y=1)对X1-X5的Logistic回归模型,并进行参数显著性检验和预测。

二、根据数据集,建立Logistic回归模型,并进行分析

x1<-c(70,60,70,40,40,70,70,80,60,30,80,40,60,40,20,50,50,40,80,70,60,90,50,70,20,80,60,50,

70,40,30,30,40,60,80,70,30,60,80,70)

x2<-c(64,63,65,69,63,48,48,63,63,53,43,55,66,67,61,63,66,68,41,53,37,54,52,50,65,52,70,40,36,44,54,59,69,50,62,68,39,49,64,67)

x3<-c(5,9,11,10,58,9,11,4,14,4,12,2,25,23,19,4,16,12,12,8,13,12,8,7,21,28,13,13,22,36,9,87,5,22,4,15,4,11,10,18)

x4<-c(1,1,1,1,1,1,1,2,2,2,2,2,2,2,3,3,0,0,0,0,1,1,1,1,1,1,1,1,2,2,2,2,3,3,3,0,0,0,0,0)

x5<-c(1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)

y<-c(1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,1,0,1,1,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,1,1)

df<-data.frame(x1,x2,x3,x4,x5,y)

log.glm<-glm(y~x1+x2+x3+x4+x5,family = binomial,data=df)

summary(log.glm)

运行得到:

从回归结果可以看到,系数只有一个是显著的,即病人的生活行为能力X1对p(Y=1)的影响是显著的,其余系数没通过检验。

三、使用逐步回归法,筛选出合适变量并找到最优的回归方程

log.step<-step(log.glm)

summary(log.step)

运行得到:

复制代码
> log.step<-step(log.glm)
Start:  AIC=40.39
y ~ x1 + x2 + x3 + x4 + x5

       Df Deviance    AIC
- x3    1   28.484 38.484
- x2    1   28.484 38.484
- x5    1   28.799 38.799
<none>      28.392 40.392
- x4    1   32.642 42.642
- x1    1   38.306 48.306

Step:  AIC=38.48
y ~ x1 + x2 + x4 + x5

       Df Deviance    AIC
- x2    1   28.564 36.564
- x5    1   28.993 36.993
<none>      28.484 38.484
- x4    1   32.705 40.705
- x1    1   38.478 46.478

Step:  AIC=36.56
y ~ x1 + x4 + x5

       Df Deviance    AIC
- x5    1   29.073 35.073
<none>      28.564 36.564
- x4    1   32.892 38.892
- x1    1   38.478 44.478

Step:  AIC=35.07
y ~ x1 + x4

       Df Deviance    AIC
<none>      29.073 35.073
- x4    1   33.535 37.535
- x1    1   39.131 43.131
复制代码
> summary(log.step)

Call:
glm(formula = y ~ x1 + x4, family = binomial, data = df)

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) -6.13755    2.73844  -2.241   0.0250 *
x1           0.09759    0.04079   2.393   0.0167 *
x4          -1.12524    0.60239  -1.868   0.0618 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 44.987  on 39  degrees of freedom
Residual deviance: 29.073  on 37  degrees of freedom
AIC: 35.073

Number of Fisher Scoring iterations: 6

使用逐步回归法得到了最终的回归方程,此时已经剔除了变量X2,X3,X5,只保留变量X1,X4,从回归方程的检验结果来看,系数是显著性得到了提高。

最终的回归方程为:

p=exp(-6.13755+0.09759x1-1.12524x4)/(1+exp(-6.13755+0.09759x1-1.12524x4))

使用该回归方程对,对40位病人生存时间较长的概率(Y=1)进行拟合和预测。

复制代码
> log.pre<-predict(log.step)
> p<-exp(log.pre)/(1+exp(log.pre))
> p
运行得到各病人的生存时间较长的概率p(Y=1):
  

从而得到最终的生存时间较长的概率的拟合值。

相关推荐
盈创力和20072 分钟前
以太网多参量传感器:超越温湿度的“智能嗅探”,守护每一方空气的安全
大数据·人工智能
wwlsm_zql17 分钟前
江西移动5G赋能:电力行业智能化革新探秘
人工智能·5g
ChatPPT_YOO30 分钟前
告别手搓PPT:实测四款免费AI生成工具
人工智能·信息可视化·powerpoint·ai生成ppt·ppt制作
caiyueloveclamp30 分钟前
便宜好用AIPPT推荐TOP8【2025最新】
大数据·人工智能·powerpoint·ai生成ppt·aippt·免费会员
CHENKONG_CK41 分钟前
RFID 技术赋能汽车制造:发动机气缸缸体生产线智能化升级案例
人工智能·生产制造·rfid
葡萄城技术团队1 小时前
实战视角:为何专用小型语言模型(SLM)正成为企业 AI 选型新宠—与 LLM 的全面对比指南
大数据·人工智能·语言模型
AndrewHZ2 小时前
【图像处理基石】老照片修复入门:用技术唤醒沉睡的回忆
图像处理·人工智能·opencv·计算机视觉·cv·图像修复
AI_Auto2 小时前
MES系列-制造流程数字化的实现
大数据·人工智能·自动化·制造·数字化
DolphinDB智臾科技2 小时前
DolphinDB × 浙江大学合作新课——量化金融:理论与应用
人工智能·金融·浙江大学·量化金融·dolphindb
老赵聊算法、大模型备案2 小时前
广西 “人工智能 + 制造” 政策科普:十大支持方向与补贴明细
人工智能·aigc·制造