Statistical Learning 统计学习 :回归任务,线性回归,最小二乘法,标准误差,R方

统计学习是统计学中的一个领域,专注于建立模型以进行预测或推断。

监督学习:回归(Supervised Learning: Regression)

1. 回归任务的核心目标
  • 目标是使用样本数据来估计一个函数,即:

    Y = f ( X ) + ε Y = f(X) + \varepsilon Y=f(X)+ε

    其中:

    • Y 是目标变量(因变量)
    • X 是自变量(特征变量)
    • f(X) 是映射关系,即我们希望学习的函数
    • ε 是不可约误差(irreducible error),即无法通过模型减少的噪声

2. 参数回归(Parametric Regression)
  • 这种方法对函数形式 做出显式假设,比如线性回归:

    f ( X ) = β 0 + β 1 X 1 + β 2 X 2 + ⋯ + β p X p f(X) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p f(X)=β0+β1X1+β2X2+⋯+βpXp

    其中:

    • β0,β1,...,βp 是需要估计的参数
  • 特点:

    • 假设 f(X) 的函数形式,例如线性、多项式、指数等
    • 估计参数(如最小二乘法求解回归系数)
    • 计算高效,但可能模型假设不够灵活,导致欠拟合(underfitting)

3. 非参数回归(Nonparametric Regression)
  • 不假设 f(X) 具有特定的函数形式,而是基于数据学习 ,假设 f(X) 是一个很好地拟合数据的平滑函数:
    • 局部加权回归(LOESS, LOWESS)
    • 核回归(Kernel Regression)
    • 样条回归(Spline Regression)
    • 决策树(Decision Tree)、随机森林(Random Forest)
    • 神经网络(Neural Networks)
  • 特点:
    • 不依赖特定函数形式
    • 适用于复杂数据模式,但计算成本较高
    • 可能容易过拟合(overfitting)

线性回归模型(Linear Regression Model)

线性回归模型用于建立自变量 XXX因变量 YYY 之间的线性关系:
Y = f ( X ) + ε = β 0 + β 1 X + ε Y = f(X) + \varepsilon = \beta_0 + \beta_1 X + \varepsilon Y=f(X)+ε=β0+β1X+ε

1. 变量定义
  • X:预测变量(Predictor)、特征(Feature)、独立变量(Independent Variable)
  • Y:响应变量(Response)、目标(Target)、因变量(Dependent Variable)
2. 线性回归参数
  • β0(截距,Intercept):

    • 当 X=0时,Y 的期望值(E[Y])。
    • 代表回归线与 Y轴的交点。
  • β1(斜率,Slope):

    • 代表 X 每增加 1 个单位,Y的平均变化量。

    • 解释:

      • 若 β1>0,则 X 增加时 Y 也增加(正相关)。
      • 若 β1<0,则 X 增加时 Y 减少(负相关)。
  • ε(误差项,Error Term):

    • 代表不可解释的误差(随机误差)。
    • 经典假设:
      • 服从正态分布:ε∼N(0,σ2)
      • 期望值为 0,即 E[ε]=0
      • 方差有限,且独立同分布(i.i.d.)

最小二乘法(Least Squares Method, LSM)

1. 估计回归系数(Least Squares Equations)

(1) 目标:最小化误差平方和(RSS)
R S S = ∑ i = 1 n ( y i − ( β 0 + β 1 x i ) ) 2 RSS = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_i))^2 RSS=i=1∑n(yi−(β0+β1xi))2

通过偏导数求解最优参数

∂ R S S ∂ β 0 = 0 \frac{\partial RSS}{\partial \beta_0} = 0 ∂β0∂RSS=0

∂ R S S ∂ β 1 = 0 \frac{\partial RSS}{\partial \beta_1} = 0 ∂β1∂RSS=0

(2) 回归系数公式

  • 斜率(Regression Coefficient)

β ^ 1 = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 = Cov ( X , Y ) Var ( X ) \hat{\beta}1 = \frac{\sum{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} = \frac{\text{Cov}(X,Y)}{\text{Var}(X)} β^1=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(yi−yˉ)=Var(X)Cov(X,Y)

  • 截距(Intercept)

β ^ 0 = y ˉ − β ^ 1 x ˉ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} β^0=yˉ−β^1xˉ

其中:

  • xˉ 和 yˉ 分别是 X 和 Y 的样本均值
    x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i xˉ=n1i=1∑nxi

    y ˉ = 1 n ∑ i = 1 n y i \bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i yˉ=n1i=1∑nyi

  • 样本方差(Variance)
    Var ( X ) = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 \text{Var}(X) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 Var(X)=n1i=1∑n(xi−xˉ)2

  • 样本协方差(Covariance)
    Cov ( X , Y ) = 1 n ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) \text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) Cov(X,Y)=n1i=1∑n(xi−xˉ)(yi−yˉ)


2. 最小二乘回归线(Least Squares Regression Line)

y ^ = β ^ 0 + β ^ 1 x \hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x y^=β^0+β^1x

这条回归线是最小二乘回归线(Least Squares Regression Line) ,因为它最小化了残差平方和(RSS)


3. 最小二乘估计(LSE)的性质

在满足一定假设条件时,最小二乘估计具有**最佳线性无偏估计(Best Linear Unbiased Estimator, BLUE)**的性质。

(1) 经典假设(Classical Assumptions)

为了确保最小二乘估计是最佳估计,需要满足以下假设:

  1. 线性关系(Linearity)
    • Y 和 X之间存在线性关系,即数据可以用一条直线拟合。
  2. 无多重共线性(No Multicollinearity)
    • 如果有多个自变量,它们之间不能高度相关,否则估计结果会不稳定。
  3. 严格外生性(Strict Exogeneity)
    • 误差项 ε 的期望值为 0,即: E[ε∣X]=0
    • 这意味着误差不应该受到 X 的影响。
  4. 误差项独立同分布(i.i.d. Errors)
    • 误差项之间相互独立,即: Cov(εi,εj)=0,i≠j
  5. 误差服从正态分布(Normally Distributed Errors)
    • 误差项 ε∼N(0,σ^2),即误差服从均值为 0,方差为 σ^2 的正态分布

4. 误差的方差(Homoscedasticity vs. Heteroskedasticity)

(1) 方差齐性(Homoscedasticity)

  • 若误差项的方差恒定,即:
    Var ( ε ∣ X ) = σ 2 \text{Var}(\varepsilon | X) = \sigma^2 Var(ε∣X)=σ2
    则模型的估计更为可靠,回归系数的标准误差更准确。

(2) 方差不齐(Heteroskedasticity)

  • 若误差方差随着 X 变化,则模型可能存在异方差性(Heteroskedasticity)。
  • 解决方案:
    • 对 Y 进行对数变换(Log Transformation)
    • 使用加权最小二乘法(Weighted Least Squares, WLS)
    • 使用稳健回归(Robust Regression)

样本均值的标准误差

样本均值的标准误差(SE)表示了样本均值对总体均值的估计精度。它的大小与样本量和总体的标准差有关。

  1. 单一总体估计问题

    当我们从总体中抽取样本并希望估计总体的均值时,样本均值是一个常用的估计量。

  2. 样本均值的方差

    样本均值的方差是样本量 nnn 和总体方差 σ2\sigma^2σ2 的函数,具体来说,样本均值的方差为:
    Var ( Y ‾ ) = σ 2 n \text{Var}(\overline{Y}) = \frac{\sigma^2}{n} Var(Y)=nσ2

    这表明,随着样本量 nnn 的增加,样本均值的方差会减小,意味着估计结果更加精确。

回归系数的标准误差

回归模型的回归系数(β0 和 β1)的标准误差计算公式如下:

  • 截距 β0 的标准误差

    S E ( β 0 ) = σ 2 n + x ‾ 2 n ⋅ ∑ i = 1 n ( x i − x ‾ ) 2 SE(\beta_0) = \sqrt{\frac{\sigma^2}{n} + \frac{\overline{x}^2}{n \cdot \sum_{i=1}^{n}(x_i - \overline{x})^2}} SE(β0)=nσ2+n⋅∑i=1n(xi−x)2x2

  • 斜率 β1 的标准误差

    S E ( β 1 ) = σ ∑ i = 1 n ( x i − x ‾ ) 2 SE(\beta_1) = \frac{\sigma}{\sqrt{\sum_{i=1}^{n}(x_i - \overline{x})^2}} SE(β1)=∑i=1n(xi−x)2 σ

这里:

  • σ2 是误差项 ϵ 的方差(即回归残差的方差),
  • x‾是 x 的均值,
  • xi 是样本数据中的每一个自变量。
2. 标准误差与数据分布的关系
  • 如果自变量 xi 的分布更为分散(即数据点的变化更大),则回归系数的标准误差会更小。这是因为更多的"杠杆"(leverage)有助于更精确地估计回归参数。
  • 当样本量 n 趋近于无穷大时,回归系数的标准误差会趋近于零,意味着回归系数的估计会更加精确。

对于样本均值的标准误差(SE),我们通常使用公式:
S E ( X ‾ ) = σ n SE(\overline{X}) = \frac{\sigma}{\sqrt{n}} SE(X)=n σ

评估模型拟合度 - 拟合优度统计量

拟合优度是通过 决定系数 (coefficient of determination) 来衡量的,通常用符号 R² 表示。它的值范围在 0 到 1 之间,适用于训练数据集。

1. 决定系数 (R²)

决定系数 R² 衡量的是响应变量(Y)的变化有多少部分可以通过线性回归模型来解释。具体来说:

  • R²=0:表示通过线性回归模型解释响应变量 Y 的变化完全失败,模型没有解释能力。
  • R²=1:表示模型完全解释了响应变量 Y 的所有变化,回归模型拟合得非常完美。
2. 解释
  • 决定系数

    是通过计算模型预测值与实际值之间的差异来衡量模型拟合效果的。其计算公式为:

    R 2 = 1 − Residual Sum of Squares (RSS) Total Sum of Squares (TSS) R^2 = 1 - \frac{\text{Residual Sum of Squares (RSS)}}{\text{Total Sum of Squares (TSS)}} R2=1−Total Sum of Squares (TSS)Residual Sum of Squares (RSS)

    • RSS (Residual Sum of Squares):回归模型的残差平方和,表示模型无法解释的部分。
    • TSS (Total Sum of Squares):响应变量 Y 的总变差,表示数据的总变化。
3. 重要提醒
  • 主要用于评估 线性回归模型 的拟合效果。
  • 对于 非线性模型 ,R² 可能并不适用或者不能作为唯一的评估指标。这是因为对于非线性模型,总平方和 (TSS) 并不等于残差平方和 (RSS) 和解释平方和 (ESS) 的总和。
  • 非线性模型 的评估需要考虑其他适合的拟合度指标,例如:交叉验证、AIC(赤池信息量准则)、BIC(贝叶斯信息量准则)等。

因果关系的注意事项

  • 在多元线性回归中,回归系数仅表示预测变量与响应变量之间的关联,并不意味着因果关系。
  • 特别是在观察性数据中(即非实验数据),应避免做出因果推断。观察性数据只能揭示变量之间的相关性,而不能确定因果关系。
相关推荐
阿阳微客3 小时前
Steam 搬砖项目深度拆解:从抵触到真香的转型之路
前端·笔记·学习·游戏
Chef_Chen8 小时前
从0开始学习R语言--Day18--分类变量关联性检验
学习
键盘敲没电8 小时前
【IOS】GCD学习
学习·ios·objective-c·xcode
海的诗篇_9 小时前
前端开发面试题总结-JavaScript篇(一)
开发语言·前端·javascript·学习·面试
AgilityBaby9 小时前
UE5 2D角色PaperZD插件动画状态机学习笔记
笔记·学习·ue5
AgilityBaby9 小时前
UE5 创建2D角色帧动画学习笔记
笔记·学习·ue5
武昌库里写JAVA10 小时前
iview Switch Tabs TabPane 使用提示Maximum call stack size exceeded堆栈溢出
java·开发语言·spring boot·学习·课程设计
一弓虽11 小时前
git 学习
git·学习
Moonnnn.13 小时前
【单片机期末】串行口循环缓冲区发送
笔记·单片机·嵌入式硬件·学习
带电的小王14 小时前
【动手学深度学习】3.1. 线性回归
人工智能·深度学习·线性回归