Statistical Learning 统计学习：回归任务，线性回归，最小二乘法，标准误差，R方

统计学习是统计学中的一个领域，专注于建立模型以进行预测或推断。

监督学习：回归（Supervised Learning: Regression）

1. 回归任务的核心目标

目标是使用样本数据来估计一个函数，即：

Y = f ( X ) + ε Y = f(X) + \varepsilon Y=f(X)+ε

其中：
- Y 是目标变量（因变量）
- X 是自变量（特征变量）
- f(X) 是映射关系，即我们希望学习的函数
- ε 是不可约误差（irreducible error），即无法通过模型减少的噪声

2. 参数回归（Parametric Regression）

这种方法对函数形式 做出显式假设，比如线性回归：

f ( X ) = β 0 + β 1 X 1 + β 2 X 2 + ⋯ + β p X p f(X) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p f(X)=β0+β1X1+β2X2+⋯+βpXp

其中：
- β0,β1,...,βp 是需要估计的参数
特点：
- 假设 f(X) 的函数形式，例如线性、多项式、指数等
- 估计参数（如最小二乘法求解回归系数）
- 计算高效，但可能模型假设不够灵活，导致欠拟合（underfitting）

3. 非参数回归（Nonparametric Regression）

不假设 f(X) 具有特定的函数形式，而是基于数据学习 ，假设 f(X) 是一个很好地拟合数据的平滑函数：
- 局部加权回归（LOESS, LOWESS）
- 核回归（Kernel Regression）
- 样条回归（Spline Regression）
- 决策树（Decision Tree）、随机森林（Random Forest）
- 神经网络（Neural Networks）
特点：
- 不依赖特定函数形式
- 适用于复杂数据模式，但计算成本较高
- 可能容易过拟合（overfitting）

线性回归模型（Linear Regression Model）

线性回归模型用于建立自变量 XXX 和因变量 YYY 之间的线性关系：
Y = f ( X ) + ε = β 0 + β 1 X + ε Y = f(X) + \varepsilon = \beta_0 + \beta_1 X + \varepsilon Y=f(X)+ε=β0+β1X+ε

1. 变量定义

X：预测变量（Predictor）、特征（Feature）、独立变量（Independent Variable）
Y：响应变量（Response）、目标（Target）、因变量（Dependent Variable）

2. 线性回归参数

β0（截距，Intercept）：
- 当 X=0时，Y 的期望值（E[Y]）。
- 代表回归线与 Y轴的交点。
β1（斜率，Slope）：
- 代表 X 每增加 1 个单位，Y的平均变化量。
- 解释：
  - 若 β1>0，则 X 增加时 Y 也增加（正相关）。
  - 若 β1<0，则 X 增加时 Y 减少（负相关）。
ε（误差项，Error Term）：
- 代表不可解释的误差（随机误差）。
- 经典假设：
  - 服从正态分布：ε∼N(0,σ2)
  - 期望值为 0，即 E[ε]=0
  - 方差有限，且独立同分布（i.i.d.）

最小二乘法（Least Squares Method, LSM）

1. 估计回归系数（Least Squares Equations）

(1) 目标：最小化误差平方和（RSS）
R S S = ∑ i = 1 n ( y i − ( β 0 + β 1 x i ) ) 2 RSS = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_i))^2 RSS=i=1∑n(yi−(β0+β1xi))2

通过偏导数求解最优参数：

∂ R S S ∂ β 0 = 0 \frac{\partial RSS}{\partial \beta_0} = 0 ∂β0∂RSS=0

∂ R S S ∂ β 1 = 0 \frac{\partial RSS}{\partial \beta_1} = 0 ∂β1∂RSS=0

(2) 回归系数公式

斜率（Regression Coefficient）：

β ^ 1 = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 = Cov ( X , Y ) Var ( X ) \hat{\beta}1 = \frac{\sum{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} = \frac{\text{Cov}(X,Y)}{\text{Var}(X)} β^1=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(yi−yˉ)=Var(X)Cov(X,Y)

截距（Intercept）：

β ^ 0 = y ˉ − β ^ 1 x ˉ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} β^0=yˉ−β^1xˉ

其中：

xˉ 和 yˉ 分别是 X 和 Y 的样本均值 ：
x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i xˉ=n1i=1∑nxi

y ˉ = 1 n ∑ i = 1 n y i \bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i yˉ=n1i=1∑nyi
样本方差（Variance） ：
Var ( X ) = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 \text{Var}(X) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 Var(X)=n1i=1∑n(xi−xˉ)2
样本协方差（Covariance） ：
Cov ( X , Y ) = 1 n ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) \text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) Cov(X,Y)=n1i=1∑n(xi−xˉ)(yi−yˉ)

2. 最小二乘回归线（Least Squares Regression Line）

y ^ = β ^ 0 + β ^ 1 x \hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x y^=β^0+β^1x

这条回归线是最小二乘回归线（Least Squares Regression Line） ，因为它最小化了残差平方和（RSS）。

3. 最小二乘估计（LSE）的性质

在满足一定假设条件时，最小二乘估计具有**最佳线性无偏估计（Best Linear Unbiased Estimator, BLUE）**的性质。

(1) 经典假设（Classical Assumptions）

为了确保最小二乘估计是最佳估计，需要满足以下假设：

线性关系（Linearity）
- Y 和 X之间存在线性关系，即数据可以用一条直线拟合。
无多重共线性（No Multicollinearity）
- 如果有多个自变量，它们之间不能高度相关，否则估计结果会不稳定。
严格外生性（Strict Exogeneity）
- 误差项 ε 的期望值为 0，即： E[ε∣X]=0
- 这意味着误差不应该受到 X 的影响。
误差项独立同分布（i.i.d. Errors）
- 误差项之间相互独立，即： Cov(εi,εj)=0,i≠j
误差服从正态分布（Normally Distributed Errors）
- 误差项 ε∼N(0,σ^2)，即误差服从均值为 0，方差为 σ^2 的正态分布。

4. 误差的方差（Homoscedasticity vs. Heteroskedasticity）

(1) 方差齐性（Homoscedasticity）

若误差项的方差恒定，即：
Var ( ε ∣ X ) = σ 2 \text{Var}(\varepsilon | X) = \sigma^2 Var(ε∣X)=σ2
则模型的估计更为可靠，回归系数的标准误差更准确。

(2) 方差不齐（Heteroskedasticity）

若误差方差随着 X 变化，则模型可能存在异方差性（Heteroskedasticity）。
解决方案：
- 对 Y 进行对数变换（Log Transformation）
- 使用加权最小二乘法（Weighted Least Squares, WLS）
- 使用稳健回归（Robust Regression）

样本均值的标准误差

样本均值的标准误差（SE）表示了样本均值对总体均值的估计精度。它的大小与样本量和总体的标准差有关。

单一总体估计问题

当我们从总体中抽取样本并希望估计总体的均值时，样本均值是一个常用的估计量。
样本均值的方差

样本均值的方差是样本量 nnn 和总体方差 σ2\sigma^2σ2 的函数，具体来说，样本均值的方差为：
Var ( Y ‾ ) = σ 2 n \text{Var}(\overline{Y}) = \frac{\sigma^2}{n} Var(Y)=nσ2

这表明，随着样本量 nnn 的增加，样本均值的方差会减小，意味着估计结果更加精确。

回归系数的标准误差

回归模型的回归系数（β0 和 β1）的标准误差计算公式如下：

截距 β0 的标准误差：

S E ( β 0 ) = σ 2 n + x ‾ 2 n ⋅ ∑ i = 1 n ( x i − x ‾ ) 2 SE(\beta_0) = \sqrt{\frac{\sigma^2}{n} + \frac{\overline{x}^2}{n \cdot \sum_{i=1}^{n}(x_i - \overline{x})^2}} SE(β0)=nσ2+n⋅∑i=1n(xi−x)2x2
斜率 β1 的标准误差：

S E ( β 1 ) = σ ∑ i = 1 n ( x i − x ‾ ) 2 SE(\beta_1) = \frac{\sigma}{\sqrt{\sum_{i=1}^{n}(x_i - \overline{x})^2}} SE(β1)=∑i=1n(xi−x)2 σ

这里：

σ2 是误差项 ϵ 的方差（即回归残差的方差），
x‾是 x 的均值，
xi 是样本数据中的每一个自变量。

2. 标准误差与数据分布的关系

如果自变量 xi 的分布更为分散（即数据点的变化更大），则回归系数的标准误差会更小。这是因为更多的"杠杆"（leverage）有助于更精确地估计回归参数。
当样本量 n 趋近于无穷大时，回归系数的标准误差会趋近于零，意味着回归系数的估计会更加精确。

对于样本均值的标准误差（SE），我们通常使用公式：
S E ( X ‾ ) = σ n SE(\overline{X}) = \frac{\sigma}{\sqrt{n}} SE(X)=n σ

评估模型拟合度 - 拟合优度统计量

拟合优度是通过 决定系数 (coefficient of determination) 来衡量的，通常用符号 R² 表示。它的值范围在 0 到 1 之间，适用于训练数据集。

1. 决定系数 (R²)

决定系数 R² 衡量的是响应变量（Y）的变化有多少部分可以通过线性回归模型来解释。具体来说：

R²=0：表示通过线性回归模型解释响应变量 Y 的变化完全失败，模型没有解释能力。
R²=1：表示模型完全解释了响应变量 Y 的所有变化，回归模型拟合得非常完美。

2. 解释

决定系数

是通过计算模型预测值与实际值之间的差异来衡量模型拟合效果的。其计算公式为：

R 2 = 1 − Residual Sum of Squares (RSS) Total Sum of Squares (TSS) R^2 = 1 - \frac{\text{Residual Sum of Squares (RSS)}}{\text{Total Sum of Squares (TSS)}} R2=1−Total Sum of Squares (TSS)Residual Sum of Squares (RSS)
- RSS (Residual Sum of Squares)：回归模型的残差平方和，表示模型无法解释的部分。
- TSS (Total Sum of Squares)：响应变量 Y 的总变差，表示数据的总变化。

3. 重要提醒

R² 主要用于评估 线性回归模型 的拟合效果。
对于 非线性模型 ，R² 可能并不适用或者不能作为唯一的评估指标。这是因为对于非线性模型，总平方和 (TSS) 并不等于残差平方和 (RSS) 和解释平方和 (ESS) 的总和。
非线性模型 的评估需要考虑其他适合的拟合度指标，例如：交叉验证、AIC（赤池信息量准则）、BIC（贝叶斯信息量准则）等。

因果关系的注意事项

在多元线性回归中，回归系数仅表示预测变量与响应变量之间的关联，并不意味着因果关系。
特别是在观察性数据中（即非实验数据），应避免做出因果推断。观察性数据只能揭示变量之间的相关性，而不能确定因果关系。

Statistical Learning 统计学习 ：回归任务，线性回归，最小二乘法，标准误差，R方