一、数据集如下:
|----|------|------|------|------|------|------|------|------|------|------|
| 温度对产量的影响 |||||||||||
| 温度 | 20 | 25 | 30 | 35 | 40 | 45 | 50 | 55 | 60 | 65 |
| 产量 | 13.2 | 15.1 | 16.4 | 17.1 | 17.9 | 18.7 | 19.6 | 21.2 | 22.5 | 24.3 |
二、绘制数据的散点图
x<-c(20,25,30,35,40,45,50,55,60,65)
y<-c(13.2,15.1,16.4,17.1,17.9,18.7,19.6,21.2,22.5,24.3)
plot(x,y)
运行得到:
从图中可以看到,变量温度与产品是近似的线性关系。
三、建立变量的线性方程,并进行显著性检验
lm.reg<-lm(y~x)
summary(lm.reg)
运行得到:
回归方程的显著性检验的F统计量的P值2.805e-08和系数的显著性检验的t值2.8e-08和5.8e-08都低于显著性水平0.05,故回归方程和参数都通过了检验,R方为0.9799,说明数据的97%可由回归方程描述。
四、回归参数区间估计
使用confint(lm.reg,level=0.95)得到回归参数的区间估计
五、对回归方程的误差项独立同正态分布的假设进行检验
op<-par(mfrow=c(2,2)
plot(lm.reg)
par(op)
1、从Residual 与fitted为拟合值对残差的图形,可以看出数据点基本均匀的分布在直线y=0的两侧。
2、从正态OO图可以看到,图中数据点分布趋于一条直线,说明残差服从正态分布。
3、显示标准化残差的平方根分布情况。
4、cook距离显示样本点对回归的影响点。
六、绘制标准化残差散点图
res<-rstandard(lm.reg)
plot(res)
从图中可以看到,标准化残差的绝对值都<=2,可以认为无可疑和异常的样本点。
七、预测
要求出当温度为42度时,产量的预测值和预测区间
执行命令:
df<-data.frame(x=42)
lm.pred<-predict(lm.reg,df,interval='prediction',level=0.95)
im.pred
从而得到了温度42度,产量的预测值和预测区间。