最小二乘线性回归

线性回归（linear regression）：试图学得一个线性模型以尽可能准确地预测实际值的输出。

以一个例子来说明线性回归，假设银行贷款会根据年龄和工资来评估可放款的额度。即：

数据：工资和年龄（2个特征）

目标：预测银行放款额度（标签）

参数：考虑工资和年龄分别对放款额度的影响程度

可以写成这样： Y = X 1 θ 1 + X 2 θ 2 Y=X_1\theta_1+X_2\theta_2 Y=X1θ1+X2θ2，这里 X 1 、 X 2 就是特征， Y X_1、X_2 就是特征，Y X1、X2就是特征，Y就是银行最终放款额度。

找到最合适的一个平面来拟合数据点：

拟合的平面方程： h θ ( x ) = θ 0 + θ 1 x 1 + θ 2 x 2 h_{\theta}(x)=\theta_0+\theta_1x_1+\theta_2x_2 hθ(x)=θ0+θ1x1+θ2x2，这里 θ 0 \theta_0 θ0是偏置项。整合该方程可以写成如下形式：
h θ ( x ) = ∑ i = 0 n θ i x i = θ ⊤ x h_{\theta}(x)=\sum_{i=0}^n \theta_ix_i=\theta^\top x hθ(x)=i=0∑nθixi=θ⊤x
注意这里 x 0 = 1 x_0=1 x0=1，添加一个全为1的特征，方便表示。

真实值和预测值之间肯定存在误差，用 ϵ \epsilon ϵ来表示误差。对于每个样本：
y i = θ ⊤ x i + ϵ i y_i = \theta^\top x_i + \epsilon_i yi=θ⊤xi+ϵi

这里 y i y_i yi 为真实值， θ ⊤ x i \theta^\top x_i θ⊤xi为预测值， ϵ i \epsilon_i ϵi为误差项

对于误差的理解： 误差 ϵ i \epsilon_i ϵi是独立同分布的，且服从均值为0方差为 θ 2 \theta^2 θ2的高斯分布

独立：每个样本 x i x_i xi是没有关系的（张三李四一起放款，他俩没关系）
同分布：每个 x i x_i xi都是对于同一个问题的（他俩都是来同一家银行）
高斯分布：误差可大可小，但是绝大多数情况下这个浮动不会太大，极小情况下浮动会比较大，符合正常情况。

由于误差服从高斯分布：
p ( ϵ i ) = 1 2 π σ e − 1 2 ( ϵ i σ ) 2 p(\epsilon_i) = \frac{1}{\sqrt{2\pi}\sigma } e^{-\frac{1}{2}\left(\frac{\epsilon_i}{\sigma}\right)^2} p(ϵi)=2π σ1e−21(σϵi)2

将预测值和误差带入上式得：
y i = θ ⊤ x i + ϵ i 带入 p ( ϵ i ) = 1 2 π σ e − 1 2 ( ϵ i σ ) 2 ： p ( y i ∣ x i ; θ ) = 1 2 π σ e − 1 2 ( y i − θ ⊤ x i σ ) 2 y_i = \theta^\top x_i + \epsilon_i \\ 带入\ \ p(\epsilon_i) = \frac{1}{\sqrt{2\pi}\sigma } e^{-\frac{1}{2}\left(\frac{\epsilon_i}{\sigma}\right)^2}：\\ p(y_i|x_i;\theta)=\frac{1}{\sqrt{2\pi}\sigma } e^{-\frac{1}{2}\left(\frac{y_i-\theta^\top x_i}{\sigma}\right)^2} yi=θ⊤xi+ϵi带入 p(ϵi)=2π σ1e−21(σϵi)2：p(yi∣xi;θ)=2π σ1e−21(σyi−θ⊤xi)2

上式的似然函数如下：
L ( θ ) = ∏ i = 1 m p ( y i ∣ x i ; θ ) = ∏ i = 1 m 1 2 π σ e − 1 2 ( y i − θ ⊤ x i σ ) 2 L(\theta) = \prod_{i=1}^mp(y_i|x_i;\theta)=\prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma } e^{-\frac{1}{2}\left(\frac{y_i-\theta^\top x_i}{\sigma}\right)^2} L(θ)=i=1∏mp(yi∣xi;θ)=i=1∏m2π σ1e−21(σyi−θ⊤xi)2

对似然函数的解释：

什么样的参数跟我们的数据组合后恰好是真实值

对数似然：
l o g L ( θ ) = l o g ∏ i = 1 m p ( y i ∣ x i ; θ ) = l o g ∏ i = 1 m 1 2 π σ e − 1 2 ( y i − θ ⊤ x i σ ) 2 = m l o g 1 2 π σ − 1 σ 2 ∗ 1 2 ∗ ∑ i = 1 m ( y i − θ ⊤ x i ) 2 log L(\theta) =log \prod_{i=1}^mp(y_i|x_i;\theta)=log \prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma } e^{-\frac{1}{2}\left(\frac{y_i-\theta^\top x_i}{\sigma}\right)^2}\\=mlog\frac{1}{\sqrt{2 \pi}\sigma}-\frac{1}{\sigma ^2}*\frac12*\sum_{i=1}^m(y_i-\theta^\top x_i)^2 logL(θ)=logi=1∏mp(yi∣xi;θ)=logi=1∏m2π σ1e−21(σyi−θ⊤xi)2=mlog2π σ1−σ21∗21∗i=1∑m(yi−θ⊤xi)2

目标是让似然函数（对数变换之后）越大越好：
m a x l o g L ( θ ) → m i n J ( θ ) = 1 2 ∑ i = 1 m ( y i − θ ⊤ x i ) 2 （最小二乘法） max \ log L(\theta)\\ →min \ J(\theta)=\frac12 \sum_{i=1}^m(y_i-\theta^\top x_i)^2（最小二乘法） max logL(θ)→min J(θ)=21i=1∑m(yi−θ⊤xi)2（最小二乘法）
J ( θ ) = 1 2 ∑ i = 1 m ( y i − θ ⊤ x i ) 2 J(\theta)=\frac12 \sum_{i=1}^m(y_i-\theta^\top x_i)^2 J(θ)=21∑i=1m(yi−θ⊤xi)2即为最小二乘法。

将目标函数写为矩阵形式：
J ( θ ) = 1 2 ∑ i = 1 m ( y i − θ ⊤ x i ) 2 = 1 2 ( X θ − y ) ⊤ ( X θ − y ) 对 θ 求偏导 : ∇ θ J ( θ ) = X ⊤ X θ − X ⊤ y 令 ∇ θ J ( θ ) = 0 得 : θ = ( X ⊤ X ) − 1 X ⊤ y J(\theta)=\frac12 \sum_{i=1}^m(y_i-\theta^\top x_i)^2= \frac12(X\theta-y)^\top (X\theta-y)\\ 对\theta 求偏导:\\ \nabla_\theta J(\theta)=X^\top X\theta-X^\top y\\ 令\nabla_\theta J(\theta)=0得:\\ \theta=(X^\top X)^{-1}X^\top y J(θ)=21i=1∑m(yi−θ⊤xi)2=21(Xθ−y)⊤(Xθ−y)对θ求偏导:∇θJ(θ)=X⊤Xθ−X⊤y令∇θJ(θ)=0得:θ=(X⊤X)−1X⊤y

采用微分和迹的关系 d f = t r ( ( ∂ f ∂ X ) ⊤ d X ) df= tr((\frac{\partial f}{\partial X})^\top dX) df=tr((∂X∂f)⊤dX)进行求导，求导过程如下：
d J ( θ ) = t r ( d J ( θ ) ) = d [ 1 2 ( X θ − y ) ⊤ ( X θ − y ) ] = t r [ d ( 1 2 ( θ ⊤ X ⊤ X θ − 2 y ⊤ X θ + y ⊤ y ) ) ] = t r [ d ( 1 2 θ ⊤ X ⊤ X θ ) ] − t r ( d ( 2 y ⊤ X θ ) ) + t r ( d ( y ⊤ y ) ) = t r ( 1 2 d θ ⊤ X ⊤ X θ ) + t r ( 1 2 θ ⊤ X ⊤ X d θ ) − t r ( 2 y ⊤ X d θ ) + 0 = t r ( 1 2 θ ⊤ X ⊤ X d θ ) + t r ( 1 2 θ ⊤ X ⊤ X d θ ) − t r ( 2 y ⊤ X d θ ) = t r ( θ ⊤ X ⊤ X d θ − 2 y ⊤ X d θ ) = t r ( ( θ ⊤ X ⊤ X − 2 y ⊤ X ) d θ ) = t r ( ( X ⊤ X θ − 2 X ⊤ y ) ⊤ d θ ) 故： ∂ J ( θ ) ∂ θ = X ⊤ X θ − 2 X ⊤ y dJ(\theta)= tr(dJ(\theta))=d[\frac12(X\theta-y)^\top (X\theta-y)]\\ =tr[d(\frac12(\theta^\top X^\top X\theta-2y^\top X\theta+y^\top y))]\\ =tr[d(\frac12\theta^\top X^\top X\theta)]-tr(d(2y^\top X\theta))+tr(d(y^\top y))\\ =tr(\frac12d\theta^\top X^\top X\theta)+tr(\frac12\theta^\top X^\top Xd\theta)-tr(2y^\top Xd\theta)+0\\ =tr(\frac12\theta^\top X^\top Xd\theta)+tr(\frac12\theta^\top X^\top Xd\theta)-tr(2y^\top Xd\theta)\\ =tr(\theta^\top X^\top Xd\theta-2y^\top Xd\theta)=tr((\theta^\top X^\top X-2y^\top X)d\theta)\\ =tr(( X^\top X\theta - 2X^\top y)^\top d\theta)\\ 故：\\ \frac{\partial J(\theta)}{\partial \theta}=X^\top X\theta - 2X^\top y\\ dJ(θ)=tr(dJ(θ))=d[21(Xθ−y)⊤(Xθ−y)]=tr[d(21(θ⊤X⊤Xθ−2y⊤Xθ+y⊤y))]=tr[d(21θ⊤X⊤Xθ)]−tr(d(2y⊤Xθ))+tr(d(y⊤y))=tr(21dθ⊤X⊤Xθ)+tr(21θ⊤X⊤Xdθ)−tr(2y⊤Xdθ)+0=tr(21θ⊤X⊤Xdθ)+tr(21θ⊤X⊤Xdθ)−tr(2y⊤Xdθ)=tr(θ⊤X⊤Xdθ−2y⊤Xdθ)=tr((θ⊤X⊤X−2y⊤X)dθ)=tr((X⊤Xθ−2X⊤y)⊤dθ)故：∂θ∂J(θ)=X⊤Xθ−2X⊤y

当 X ⊤ X X^\top X X⊤X为满秩矩阵或者正定矩阵时，令偏导数 ∂ J ( θ ) ∂ θ = X ⊤ X θ − 2 X ⊤ y = 0 \frac{\partial J(\theta)}{\partial \theta}=X^\top X\theta - 2X^\top y=0 ∂θ∂J(θ)=X⊤Xθ−2X⊤y=0得到：
θ = ( X ⊤ X ) − 1 X ⊤ y \theta=(X^\top X)^{-1}X^\top y θ=(X⊤X)−1X⊤y

其中 ( X ⊤ X ) − 1 (X^\top X)^{-1} (X⊤X)−1是矩阵 X ⊤ X X^\top X X⊤X的逆矩阵。但是现实任务中， X ⊤ X X^\top X X⊤X通常不是满秩矩阵，例如在许多任务中会遇到大量的变量，其数目甚至超过样例数，导致X的列数多于行数， X ⊤ X X^\top X X⊤X ， X ⊤ X X^\top X X⊤X显然不满秩。此时可以解出多个 θ \theta θ，他们都能使均方差最小化。选择哪一个解作为输出，将由机器学习算法的归纳偏好决定，常见的做法是引入正则化项。