Statistical Learning 统计学习 :回归任务,线性回归,最小二乘法,标准误差,R方

统计学习是统计学中的一个领域,专注于建立模型以进行预测或推断。

监督学习:回归(Supervised Learning: Regression)

1. 回归任务的核心目标
  • 目标是使用样本数据来估计一个函数,即:

    Y = f ( X ) + ε Y = f(X) + \varepsilon Y=f(X)+ε

    其中:

    • Y 是目标变量(因变量)
    • X 是自变量(特征变量)
    • f(X) 是映射关系,即我们希望学习的函数
    • ε 是不可约误差(irreducible error),即无法通过模型减少的噪声

2. 参数回归(Parametric Regression)
  • 这种方法对函数形式 做出显式假设,比如线性回归:

    f ( X ) = β 0 + β 1 X 1 + β 2 X 2 + ⋯ + β p X p f(X) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p f(X)=β0+β1X1+β2X2+⋯+βpXp

    其中:

    • β0,β1,...,βp 是需要估计的参数
  • 特点:

    • 假设 f(X) 的函数形式,例如线性、多项式、指数等
    • 估计参数(如最小二乘法求解回归系数)
    • 计算高效,但可能模型假设不够灵活,导致欠拟合(underfitting)

3. 非参数回归(Nonparametric Regression)
  • 不假设 f(X) 具有特定的函数形式,而是基于数据学习 ,假设 f(X) 是一个很好地拟合数据的平滑函数:
    • 局部加权回归(LOESS, LOWESS)
    • 核回归(Kernel Regression)
    • 样条回归(Spline Regression)
    • 决策树(Decision Tree)、随机森林(Random Forest)
    • 神经网络(Neural Networks)
  • 特点:
    • 不依赖特定函数形式
    • 适用于复杂数据模式,但计算成本较高
    • 可能容易过拟合(overfitting)

线性回归模型(Linear Regression Model)

线性回归模型用于建立自变量 XXX因变量 YYY 之间的线性关系:
Y = f ( X ) + ε = β 0 + β 1 X + ε Y = f(X) + \varepsilon = \beta_0 + \beta_1 X + \varepsilon Y=f(X)+ε=β0+β1X+ε

1. 变量定义
  • X:预测变量(Predictor)、特征(Feature)、独立变量(Independent Variable)
  • Y:响应变量(Response)、目标(Target)、因变量(Dependent Variable)
2. 线性回归参数
  • β0(截距,Intercept):

    • 当 X=0时,Y 的期望值(E[Y])。
    • 代表回归线与 Y轴的交点。
  • β1(斜率,Slope):

    • 代表 X 每增加 1 个单位,Y的平均变化量。

    • 解释:

      • 若 β1>0,则 X 增加时 Y 也增加(正相关)。
      • 若 β1<0,则 X 增加时 Y 减少(负相关)。
  • ε(误差项,Error Term):

    • 代表不可解释的误差(随机误差)。
    • 经典假设:
      • 服从正态分布:ε∼N(0,σ2)
      • 期望值为 0,即 E[ε]=0
      • 方差有限,且独立同分布(i.i.d.)

最小二乘法(Least Squares Method, LSM)

1. 估计回归系数(Least Squares Equations)

(1) 目标:最小化误差平方和(RSS)
R S S = ∑ i = 1 n ( y i − ( β 0 + β 1 x i ) ) 2 RSS = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_i))^2 RSS=i=1∑n(yi−(β0+β1xi))2

通过偏导数求解最优参数

∂ R S S ∂ β 0 = 0 \frac{\partial RSS}{\partial \beta_0} = 0 ∂β0∂RSS=0

∂ R S S ∂ β 1 = 0 \frac{\partial RSS}{\partial \beta_1} = 0 ∂β1∂RSS=0

(2) 回归系数公式

  • 斜率(Regression Coefficient)

β ^ 1 = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 = Cov ( X , Y ) Var ( X ) \hat{\beta}1 = \frac{\sum{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} = \frac{\text{Cov}(X,Y)}{\text{Var}(X)} β^1=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(yi−yˉ)=Var(X)Cov(X,Y)

  • 截距(Intercept)

β ^ 0 = y ˉ − β ^ 1 x ˉ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} β^0=yˉ−β^1xˉ

其中:

  • xˉ 和 yˉ 分别是 X 和 Y 的样本均值
    x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i xˉ=n1i=1∑nxi

    y ˉ = 1 n ∑ i = 1 n y i \bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i yˉ=n1i=1∑nyi

  • 样本方差(Variance)
    Var ( X ) = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 \text{Var}(X) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 Var(X)=n1i=1∑n(xi−xˉ)2

  • 样本协方差(Covariance)
    Cov ( X , Y ) = 1 n ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) \text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) Cov(X,Y)=n1i=1∑n(xi−xˉ)(yi−yˉ)


2. 最小二乘回归线(Least Squares Regression Line)

y ^ = β ^ 0 + β ^ 1 x \hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x y^=β^0+β^1x

这条回归线是最小二乘回归线(Least Squares Regression Line) ,因为它最小化了残差平方和(RSS)


3. 最小二乘估计(LSE)的性质

在满足一定假设条件时,最小二乘估计具有**最佳线性无偏估计(Best Linear Unbiased Estimator, BLUE)**的性质。

(1) 经典假设(Classical Assumptions)

为了确保最小二乘估计是最佳估计,需要满足以下假设:

  1. 线性关系(Linearity)
    • Y 和 X之间存在线性关系,即数据可以用一条直线拟合。
  2. 无多重共线性(No Multicollinearity)
    • 如果有多个自变量,它们之间不能高度相关,否则估计结果会不稳定。
  3. 严格外生性(Strict Exogeneity)
    • 误差项 ε 的期望值为 0,即: E[ε∣X]=0
    • 这意味着误差不应该受到 X 的影响。
  4. 误差项独立同分布(i.i.d. Errors)
    • 误差项之间相互独立,即: Cov(εi,εj)=0,i≠j
  5. 误差服从正态分布(Normally Distributed Errors)
    • 误差项 ε∼N(0,σ^2),即误差服从均值为 0,方差为 σ^2 的正态分布

4. 误差的方差(Homoscedasticity vs. Heteroskedasticity)

(1) 方差齐性(Homoscedasticity)

  • 若误差项的方差恒定,即:
    Var ( ε ∣ X ) = σ 2 \text{Var}(\varepsilon | X) = \sigma^2 Var(ε∣X)=σ2
    则模型的估计更为可靠,回归系数的标准误差更准确。

(2) 方差不齐(Heteroskedasticity)

  • 若误差方差随着 X 变化,则模型可能存在异方差性(Heteroskedasticity)。
  • 解决方案:
    • 对 Y 进行对数变换(Log Transformation)
    • 使用加权最小二乘法(Weighted Least Squares, WLS)
    • 使用稳健回归(Robust Regression)

样本均值的标准误差

样本均值的标准误差(SE)表示了样本均值对总体均值的估计精度。它的大小与样本量和总体的标准差有关。

  1. 单一总体估计问题

    当我们从总体中抽取样本并希望估计总体的均值时,样本均值是一个常用的估计量。

  2. 样本均值的方差

    样本均值的方差是样本量 nnn 和总体方差 σ2\sigma^2σ2 的函数,具体来说,样本均值的方差为:
    Var ( Y ‾ ) = σ 2 n \text{Var}(\overline{Y}) = \frac{\sigma^2}{n} Var(Y)=nσ2

    这表明,随着样本量 nnn 的增加,样本均值的方差会减小,意味着估计结果更加精确。

回归系数的标准误差

回归模型的回归系数(β0 和 β1)的标准误差计算公式如下:

  • 截距 β0 的标准误差

    S E ( β 0 ) = σ 2 n + x ‾ 2 n ⋅ ∑ i = 1 n ( x i − x ‾ ) 2 SE(\beta_0) = \sqrt{\frac{\sigma^2}{n} + \frac{\overline{x}^2}{n \cdot \sum_{i=1}^{n}(x_i - \overline{x})^2}} SE(β0)=nσ2+n⋅∑i=1n(xi−x)2x2

  • 斜率 β1 的标准误差

    S E ( β 1 ) = σ ∑ i = 1 n ( x i − x ‾ ) 2 SE(\beta_1) = \frac{\sigma}{\sqrt{\sum_{i=1}^{n}(x_i - \overline{x})^2}} SE(β1)=∑i=1n(xi−x)2 σ

这里:

  • σ2 是误差项 ϵ 的方差(即回归残差的方差),
  • x‾是 x 的均值,
  • xi 是样本数据中的每一个自变量。
2. 标准误差与数据分布的关系
  • 如果自变量 xi 的分布更为分散(即数据点的变化更大),则回归系数的标准误差会更小。这是因为更多的"杠杆"(leverage)有助于更精确地估计回归参数。
  • 当样本量 n 趋近于无穷大时,回归系数的标准误差会趋近于零,意味着回归系数的估计会更加精确。

对于样本均值的标准误差(SE),我们通常使用公式:
S E ( X ‾ ) = σ n SE(\overline{X}) = \frac{\sigma}{\sqrt{n}} SE(X)=n σ

评估模型拟合度 - 拟合优度统计量

拟合优度是通过 决定系数 (coefficient of determination) 来衡量的,通常用符号 R² 表示。它的值范围在 0 到 1 之间,适用于训练数据集。

1. 决定系数 (R²)

决定系数 R² 衡量的是响应变量(Y)的变化有多少部分可以通过线性回归模型来解释。具体来说:

  • R²=0:表示通过线性回归模型解释响应变量 Y 的变化完全失败,模型没有解释能力。
  • R²=1:表示模型完全解释了响应变量 Y 的所有变化,回归模型拟合得非常完美。
2. 解释
  • 决定系数

    是通过计算模型预测值与实际值之间的差异来衡量模型拟合效果的。其计算公式为:

    R 2 = 1 − Residual Sum of Squares (RSS) Total Sum of Squares (TSS) R^2 = 1 - \frac{\text{Residual Sum of Squares (RSS)}}{\text{Total Sum of Squares (TSS)}} R2=1−Total Sum of Squares (TSS)Residual Sum of Squares (RSS)

    • RSS (Residual Sum of Squares):回归模型的残差平方和,表示模型无法解释的部分。
    • TSS (Total Sum of Squares):响应变量 Y 的总变差,表示数据的总变化。
3. 重要提醒
  • 主要用于评估 线性回归模型 的拟合效果。
  • 对于 非线性模型 ,R² 可能并不适用或者不能作为唯一的评估指标。这是因为对于非线性模型,总平方和 (TSS) 并不等于残差平方和 (RSS) 和解释平方和 (ESS) 的总和。
  • 非线性模型 的评估需要考虑其他适合的拟合度指标,例如:交叉验证、AIC(赤池信息量准则)、BIC(贝叶斯信息量准则)等。

因果关系的注意事项

  • 在多元线性回归中,回归系数仅表示预测变量与响应变量之间的关联,并不意味着因果关系。
  • 特别是在观察性数据中(即非实验数据),应避免做出因果推断。观察性数据只能揭示变量之间的相关性,而不能确定因果关系。
相关推荐
X Y O20 分钟前
opencv初步学习——图像处理3
图像处理·opencv·学习
球求了35 分钟前
Linux 入门:权限的认识和学习
linux·运维·服务器·开发语言·学习
宫瑾1 小时前
逻辑派G1 6层高速板学习
学习·fpga开发
charlie1145141911 小时前
IMX6ULL学习整理篇——Linux驱动开发的基础3:向新框架迁移
linux·驱动开发·嵌入式硬件·学习·教程
Java版蜡笔小新1 小时前
数字与静态
java·开发语言·学习
哦豁灬2 小时前
基于香橙派 KunpengPro学习CANN(2)——Ascend Extension for PyTorch 配置与安装
人工智能·pytorch·学习·ascend
不会编程的懒洋洋2 小时前
软考笔记——计算机系统知识
笔记·学习·软考·计算机系统
勤奋的小笼包3 小时前
【论文阅读】FairCLIP - 医疗视觉语言学习中的公平性提升
论文阅读·人工智能·笔记·学习·语言模型·自然语言处理·chatgpt
Running小学生3 小时前
使用cartographer扩展地图
笔记·学习
月临水4 小时前
SpringCloud 学习笔记3(OpenFeign)
笔记·学习·spring cloud