【机器学习:四、多输入变量的回归问题】

多输入变量的回归问题

1. 多元线性回归概述

1.1 单变量线性回归与多变量线性回归的概念区分

单变量线性回归：用于预测一个因变量（输出变量）与单一自变量（输入变量）之间的线性关系。模型形式为：

y = θ 0 + θ 1 x y = \theta_0 + \theta_1x y=θ0+θ1x

多变量线性回归：扩展到多个自变量，模型形式为：

y = θ 0 + θ 1 x 1 + θ 2 x 2 + ⋯ + θ n x n y = \theta_0 + \theta_1x_1 + \theta_2x_2 + \cdots + \theta_nx_n y=θ0+θ1x1+θ2x2+⋯+θnxn

或者以向量形式表示：

y = θ T x y = \mathbf{\theta}^T \mathbf{x} y=θTx

其中：

θ \mathbf{\theta} θ 是参数向量。
x \mathbf{x} x 是特征向量。

1.2 实际应用------房价预测

问题描述：假设我们要预测房屋的价格，影响价格的因素可能包括：
- 面积（平方米）。
- 卧室数量。
- 房屋年龄。
多元回归模型的目标：根据上述多个特征建立线性回归模型，用于预测房价。

2. 向量化表示与优势

2.1 向量化表示

线性回归模型的向量形式 ：
假设有 m m m 个样本，每个样本有 n n n 个特征，设计矩阵 X \mathbf{X} X 和参数向量 θ \mathbf{\theta} θ 定义如下：

X = [ 1 x 1 , 1 x 1 , 2 ... x 1 , n 1 x 2 , 1 x 2 , 2 ... x 2 , n ⋮ ⋮ ⋮ ⋱ ⋮ 1 x m , 1 x m , 2 ... x m , n ] , θ = [ θ 0 θ 1 ⋮ θ n ] \mathbf{X} = \begin{bmatrix} 1 & x_{1,1} & x_{1,2} & \dots & x_{1,n} \\ 1 & x_{2,1} & x_{2,2} & \dots & x_{2,n} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{m,1} & x_{m,2} & \dots & x_{m,n} \end{bmatrix}, \mathbf{\theta} = \begin{bmatrix} \theta_0 \\ \theta_1 \\ \vdots \\ \theta_n \end{bmatrix} X= 11⋮1x1,1x2,1⋮xm,1x1,2x2,2⋮xm,2......⋱...x1,nx2,n⋮xm,n ,θ= θ0θ1⋮θn

模型预测值：

y = X θ \mathbf{y} = \mathbf{X} \mathbf{\theta} y=Xθ

2.2 向量化的优势

计算效率高：利用矩阵运算可以快速计算多个样本的预测值。
代码简洁：减少循环操作，简化实现。

3. 多元线性回归的优化方法

3.1 梯度下降法

目标：通过最小化损失函数找到最优参数 θ \mathbf{\theta} θ 。
损失函数：

J ( θ ) = 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J(\mathbf{\theta}) = \frac{1}{2m} \sum_{i=1}^m \left( h_\mathbf{\theta}(\mathbf{x}^{(i)}) - y^{(i)} \right)^2 J(θ)=2m1i=1∑m(hθ(x(i))−y(i))2

梯度下降更新公式：

θ : = θ − α ∂ J ( θ ) ∂ θ \mathbf{\theta} := \mathbf{\theta} - \alpha \frac{\partial J(\mathbf{\theta})}{\partial \mathbf{\theta}} θ:=θ−α∂θ∂J(θ)

更新过程向量化为：

θ : = θ − α 1 m X T ( X θ − y ) \mathbf{\theta} := \mathbf{\theta} - \alpha \frac{1}{m} \mathbf{X}^T (\mathbf{X} \mathbf{\theta} - \mathbf{y}) θ:=θ−αm1XT(Xθ−y)

其中：
- α \alpha α 是学习率。
- m m m 是样本数量。

3.2 正规方程法

目标：通过直接计算闭式解找到参数向量 θ \mathbf{\theta} θ 。
公式：

θ = ( X T X ) − 1 X T y \mathbf{\theta} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} θ=(XTX)−1XTy

特点：
- 无需选择学习率。
- 计算量较大，尤其是特征数较多时。

4. 总结与比较

方法	优点	缺点
梯度下降法	易于处理大规模数据集；灵活性高	需要选择学习率；可能收敛较慢
正规方程法	无需调参，计算直接	对高维特征敏感，计算复杂度较高

应用建议：

当特征数较少时，优先考虑正规方程法。
当样本量大或特征维度高时，选择梯度下降法。