西瓜书学习——线性回归

文章目录

基本格式
线性回归
- 一元线性回归
- 多元线性回归

基本格式

f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b f(x) = w_1x_1 + w_2x_2 + ... + w_dx_d + b f(x)=w1x1+w2x2+...+wdxd+b

一般可以表达为：

f ( x ) = w T x + b f(x) = w^Tx + b f(x)=wTx+b

w 和 b 可以通过学习得到。

线性回归

一元线性回归

一元线性回归是回归分析中最简单的一种形式，它用来描述两个变量之间的线性关系。其中，一个变量是因变量（或响应变量），通常表示为y；另一个变量是自变量（或解释变量），通常表示为x。一元线性回归假设因变量y和自变量x之间的关系可以用一条直线来描述，数学模型可以表示为：

y = β 0 + β 1 x + ϵ y = \beta_0 + \beta_1 x + \epsilon y=β0+β1x+ϵ

其中， β 0 \beta_0 β0 是直线在y轴上的截距， β 1 \beta_1 β1 是直线的斜率，表示 x 每增加一个单位时，y 平均增加的单位数量。 ϵ \epsilon ϵ 是误差项，表示模型未能解释的随机变异。

在一元线性回归中，我们的目标是找到最佳的 β 0 \beta_0 β0 和 β 1 \beta_1 β1 参数，使得模型预测的y值与实际观测的y值之间的差异（即残差）最小。这通常通过最小二乘法来实现。

最小二乘法的原理是选择 β 0 \beta_0 β0 和 β 1 \beta_1 β1 使得所有观测值与模型预测值之间的差的平方和最小。也就是说，我们要最小化残差平方和：

S = ∑ i = 1 n ( y i − ( β 0 + β 1 x i ) ) 2 S = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_i))^2 S=i=1∑n(yi−(β0+β1xi))2

其中， y i y_i yi 和 x i x_i xi 分别是第i个观测点的因变量和自变量的值，n是观测点的总数。

通过求解这个最优化问题，我们可以得到 β 0 \beta_0 β0 和 β 1 \beta_1 β1 的估计值：

β ^ 1 = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 \hat{\beta}1 = \frac{\sum{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} β^1=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(yi−yˉ)

β ^ 0 = y ˉ − β ^ 1 x ˉ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} β^0=yˉ−β^1xˉ

其中， x ˉ \bar{x} xˉ 和 y ˉ \bar{y} yˉ 分别是自变量x和因变量y的平均值。

一元线性回归的应用非常广泛，它可以用来预测因变量的值，分析变量之间的关系，以及进行假设检验等。在实际应用中，一元线性回归模型的有效性取决于数据是否满足线性回归的基本假设，包括线性关系、独立性、同方差性和正态性。

多元线性回归

多元线性回归是线性回归的一种形式，它涉及两个或两个以上的自变量（解释变量），用来预测一个因变量（响应变量）。多元线性回归的模型可以表示为：

y = β 0 + β 1 x 1 + β 2 x 2 + . . . + β p x p + ϵ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_p x_p + \epsilon y=β0+β1x1+β2x2+...+βpxp+ϵ

其中，y 是因变量， x 1 , x 2 , . . . , x p x_1, x_2, ..., x_p x1,x2,...,xp是自变量， β 0 \beta_0 β0 是截距， β 1 , β 2 , . . . , β p β \beta_1, \beta_2, ..., \beta_pβ β1,β2,...,βpβ 是每个自变量的系数， ϵ \epsilon ϵ 是误差项，表示模型未能解释的随机变异。

多元线性回归的目的是估计模型参数 β 0 , β 1 , . . . , β p \beta_0, \beta_1, ..., \beta_p β0,β1,...,βp ，使得模型预测的 y y y 值与实际观测的 y y y 值之间的差异（即残差）最小。这通常通过最小二乘法来实现。

最小二乘法的目标是最小化残差平方和：

S = ∑ i = 1 n ( y i − ( β 0 + β 1 x i 1 + β 2 x i 2 + . . . + β p x i p ) ) 2 S = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + ... + \beta_p x_{ip}))^2 S=i=1∑n(yi−(β0+β1xi1+β2xi2+...+βpxip))2

其中， y i y_i yi 是第 ii 个观测点的因变量值， x i 1 , x i 2 , . . . , x i p x_{i1}, x_{i2}, ..., x_{ip} xi1,xi2,...,xip 是对应的自变量值， n n n 是观测点的总数。

多元线性回归的参数估计通常通过矩阵方法来完成，涉及到求解正规方程组：

X T X β = X T X^T X \beta = X^T XTXβ=XT

其中，X 是设计矩阵，包含所有自变量的观测值，y 是因变量的观测值向量， β \beta β 是参数向量。

多元线性回归的应用非常广泛，它可以用来分析多个自变量对因变量的综合影响，进行预测，以及进行变量选择和假设检验等。在实际应用中，多元线性回归模型的有效性同样取决于数据是否满足线性回归的基本假设，包括线性关系、独立性、同方差性和正态性。此外，还需要注意自变量之间的多重共线性问题，这可能导致模型参数估计的不稳定。