零基础机器学习(5)之线性回归模型的性能评估

文章目录

线性回归模型的性能评估

评估线性回归模型时,首先要建立评估的测试数据集(测试集不能与训练集相同),然后选择合适的评估方法,实现对线性回归模型的评估。

回归任务中最常用的评估方法有均方误差、均方根误差和预测准确率(确定系数)。

1.举例1-单一特征

分别对两个模型进行评估,输入的测试集如表所示。

面积/(m2) 售价/(万元) 面积/(m2) 售价/(万元)
103 301 115 344
90 275 89 276
60 206 70 210
50 160 45 124
55 190 78 235
python 复制代码
#输入测试集
x_test=np.array([[103],[115],[90],[89],[60],[70],[50],[45],[55],[78]])							  #房屋面积
y_test=np.array([[301],[344],[275],[276],[206],[210],[160],[124],[190],[235]])						  #售价
#计算三个值
mse=np.average((y2-np.array(y))**2)	  #均方误差
rmse=np.sqrt(mse)		  #均方根误差
r2=model.score(x_test,y_test)	  #预测准确率
#输出三个值
print("均方误差为:",mse)		  #输出均方误差
print("均方根误差为:",rmse)		  #输出均方根误差
print("预测准确率为:",r2)		  #输出预测准确率

2.举例2-多特征

利用Sklearn中自带的数据集------糖尿病数据集训练一个模型,然后对这个模型进行评估。

python 复制代码
#导入线性回归模型、糖尿病数据集及划分样本的方法
from sklearn.linear_model import LinearRegression 
from sklearn.datasets import load_diabetes	   #导入糖尿病数据集
from sklearn.model_selection import train_test_split 
#将数据集划分为训练集和测试集
x,y=load_diabetes().data,load_diabetes().target
x_train,x_test,y_train,y_test=train_test_split(x,y,random_state=8)
#train_test_split()函数用于将数据集划分为训练集和测试集,该函数默认把数据集的75%作为训练集,把数据集的25%作为测试集,也可使用test_size设置测试集所占的比例;
#random_state的值相当于一种规则,通过设定为相同的数值,每次划分样本时,分割的结果都相同。


#训练模型
model=LinearRegression()
model.fit(x_train,y_train)
#求解线性回归方程参数
print("w=",model.coef_,"b=",model.intercept_)

w= [ 11.51226671 -282.51443231 534.2084846 401.73037118

-1043.90460259 634.92891045 186.43568421 204.94157943

762.46336088 91.95399832] b= 152.5625670974632

从代码的运行结果可以看到,w的值有多个,说明数据集的维度有多个,数据集的复杂性很高。

python 复制代码
#计算模型的预测准确率
r21=model.score(x_train,y_train)	#计算模型在训练集上的预测准确率
r22=model.score(x_test,y_test)	#计算模型在测试集上的预测准确率
#输出模型的预测准确率
print("模型在训练集上的预测准确率为:",r21)	
print("模型在测试集上的预测准确率为:",r22)

该模型的预测准确率比二手房模型低了很多,在训练集上的预测准确率约为53%,而在测试集上的预测准确率只有约46%。在训练集与测试集的预测准确率之间存在很大差异,这是过拟合的表现。

相关推荐
声网1 分钟前
「AI Infra 软件开源不是一个选项,而是必然」丨云边端架构和 AI Infra专场回顾@RTE2024
人工智能·架构·开源
李楷杰7 分钟前
PaddlePaddle 开源产业级文档印章识别PaddleX-Pipeline “seal_recognition”模型 开箱即用篇(一)
人工智能·python·开源·ocr·paddlepaddle·印章识别
海云安15 分钟前
金融领域先锋!海云安成功入选2024年人工智能先锋案例集
人工智能·金融
小王毕业啦20 分钟前
省级金融发展水平数据(2000-2022年)
大数据·人工智能·金融·数据挖掘·数据分析·社科数据
催催1222 分钟前
领夹麦克风哪个品牌好,手机领夹麦克风哪个牌子好,选购推荐
网络·人工智能·经验分享·其他·5g·智能手机
城市数据研习社32 分钟前
【论文分享】基于街景图像识别和深度学习的针对不同移动能力老年人的街道步行可达性研究——以南京成贤街社区为例
人工智能·深度学习·数据分析
梓羽玩Python40 分钟前
AI全自动开发神器 Windsurf!Cursor 的强力替代方案!GPT-4o和Claude模型免费用!
人工智能·python·程序员
逐星ing43 分钟前
[AIGC]使用阿里云Paraformer语音识别录音识别 API 进行音频处理 —— 完整流程及代码示例
人工智能·spring·阿里云·aigc·语音识别
Seeklike1 小时前
11.15 机器学习-集成学习方法-随机森林
机器学习
智通财经快讯1 小时前
FBX福币交易所多只高位股重挫,聚星科技首日高开348%
大数据·人工智能·科技