线性回归简介
- 定义:通过属性的线性组合进行预测的线性模型,目标是找到一条直线、平面或更高维的超平面,使预测值与真实值的误差最小化。
- 示例:如房屋价格预测,可用函数f(x)=W0+W1x表示,其中x为房屋大小,f(x)为价格。
- 一般形式
- 对于由d个属性描述的示例x=(x1;x2;⋯;xd),线性模型函数为f(x)=w1x1+w2x2+⋯+wdxd+b。
- 向量形式:f(x)=wTx+b。
- 最小二乘法:基于均方误差最小化进行模型求解的方法,均方误差对应 "欧氏距离",其试图找到一条直线,使所有样本到直线的欧氏距离之和最小。
二、线性回归的评估指标
- 误差平方和 / 残差平方和(SSE/RSS):SSE=∑i=1m(yi−y^i)2
- 平方损失 / 均方误差(MSE):MSE=n1∑i=1n(yi−y^i)2
- R 方:越接近 1,模型拟合效果越好。
- 计算公式:R2=1−∑(yi−yˉ)2∑(yi−y^i)2=1−SSTSSE,也可表示为R2=1−VarMSE。
- 其中,SSR=∑(y^i−yˉ)2,SSE=∑(yi−y^i)2,SST=∑(yi−yˉ)2。
三、线性模型一般形式及参数估计
- 对于样本xi,模型为f(xi)=wxi+b,要使f(xi)≃yi。
- 参数估计:求w和b使E(w,b)=∑i=1n(yi−wxi−b)2最小化,此过程称为线性回归模型的最小二乘 "参数估计"。
- 求解:将E(w,b)分别对w和b求导,令导数为 0,可得到w和b的最优解。
四、多元线性回归
- 表达式:y=w0+w1x1+w2x2+⋯+wnxn
- 涉及多属性数据,可通过矩阵等形式进行表示和计算。