机器学习-回归分析之一元线性回归

📘 机器学习-回归分析之一元线性回归

一、模型定义

当研究某一现象时,如果主要关注的是一个自变量(X)对一个因变量(Y)的影响 ,并且两者具有较强的线性相关关系,可采用一元线性回归模型(Simple Linear Regression Model)

模型形式:Y=β0​+β1​X+ε

  • ( Y ):因变量(被解释变量)
  • ( X ):自变量(解释变量)
  • ( β0 β1 ):模型参数(待估计)
  • ( 𝜀):随机误差项

二、模型的主要假设

  1. 线性关系假设:Y与X呈线性关系。
  2. 独立性假设:各样本之间相互独立。
  3. 同方差性假设:误差项方差相同。
  4. 正态性假设:误差项服从均值为0、方差为σ²的正态分布。

三、参数估计方法

1. 最小二乘法(Ordinary Least Squares, OLS)

目标:通过样本数据,估计出最能代表总体规律的参数 β₀ 和 β₁。

  • 思想:通过观测样本数据,寻找能最小化"预测值与实际值之间偏差平方和"的参数 𝛽0,𝛽1
  • 最小化问题求解过程:为了得到最佳参数,使得误差平方和最小化,
    对 𝛽0,𝛽1β0,β1分别求偏导,并令导数为0,求导 → 联立方程 → 解得:

补充偏导数知识:

1)外层平方 → 用到导数公式 (g(x))^2' = 2g(x)g'(x)

2)对 β₀ 求导时,β₁、Xᵢ、Yᵢ 都是常数

解这两个方程可得:


2、最大似然估计

最大似然估计(Maximum Likelihood Estimation, MLE)

是一种利用样本数据来估计总体分布参数的方法。

它基于"已知样本服从某种分布,但未知参数"的前提,通过选择使样本出现的概率最大化的参数值,作为参数估计结果。


  • 基本思想与直观理解

1️⃣ 假设样本来自某个分布族,例如:

其中 θ是未知参数。

2️⃣ 构建"似然函数":

3️⃣ 取对数简化运算(对数似然函数):

4️⃣ 对参数 (θ ) 求导并令导数为0(寻找极值点):

求得的

就是最大似然估计值。


  • 举例:二项分布下的最大似然估计

假设掷硬币实验中,每次投掷成功(正面朝上)的概率为 ( p ),

观测到的成功次数 ( k ) 服从二项分布:

对应的似然函数为:

取对数求导:

求偏导并令为0:

最终得到:

即样本中"成功次数比例"就是最大似然估计值。✅


  • MLE 在回归模型中的意义

  • 在线性回归中,如果假设误差项服从正态分布 ,

    则最小二乘法(OLS)与最大似然估计(MLE)在数学上是等价的

  • 在逻辑回归中,因变量服从二项分布 ,因此不能使用最小二乘法,而是必须使用最大似然估计法


四、模型检验

1、参数估计:最小二乘估计(LSE)

已知两组数据 𝑥 和 𝑦,使用一元线性回归模型拟合两者之间的关系:

使用最小二乘法(LSE)估计回归方程的系数 ,得到最终回归方程。

已知:

计算得到:

最终回归方程:

2、回归系数是否显著:t 检验

1️⃣ 检验目的

判断因变量 ( y ) 与自变量 ( x ) 是否存在线性关系,即:

2️⃣ 检验水平

α=0.05或0.01

3️⃣ 构造统计量

若 (H0) 成立:

t 统计量定义为:

4️⃣ 判定规则

  • 查 t 分布表,自由度 n - 2 = 13
  • 双尾检验,显著性水平 α = 0.05
  • 临界值:

5️⃣ 结论

若 ( |t| > 2.16 ),拒绝 (H0),认为 x对 y有显著线性影响。

本次结果:拒绝原假设 (H0: β1​= 0),接受 (H1: β1​!=0)。


3、回归方程是否显著:F 检验

1️⃣ 检验目的

判断整个回归方程是否显著,即模型是否有统计意义。

根据平方和分解式

SST = SSR + SSE

  • (SST):总离差平方和(因变量的波动程度)
  • (SSR):回归平方和(由自变量 (x) 引起的波动)
  • (SSE):残差平方和(由其他因素引起的波动)

2️⃣ F统计量公式

3️⃣ 数据与计算结果

方差来源 自由度 平方和(SS) 均方(MS)
回归 1(即 (k-1)) SSR = 841.65 841.65
残差 13(即 (T-k)) SSE = 69.75 5.365
总和 14(即 (T-1)) SST = 911.51 ---

计算统计量:

自由度 ((1, 13)),对应:


4️⃣ 检验结论


4、总结

检验方法 目的 结论
t 检验 单个回归系数显著性 β₁ 显著 ≠ 0
F 检验 整体方程显著性 回归方程显著有效

相关推荐
西格电力科技5 小时前
分布式光伏 “四可” 装置:“发电孤岛” 到 “电网友好” 的关键跨越
分布式·科技·机器学习·能源
陈天伟教授7 小时前
基于学习的人工智能(3)机器学习基本框架
人工智能·学习·机器学习·知识图谱
serve the people12 小时前
机器学习(ML)和人工智能(AI)技术在WAF安防中的应用
人工智能·机器学习
0***K89212 小时前
前端机器学习
人工智能·机器学习
陈天伟教授12 小时前
基于学习的人工智能(5)机器学习基本框架
人工智能·学习·机器学习
合作小小程序员小小店13 小时前
web网页,在线%抖音,舆情,线性回归%分析系统demo,基于python+web+echart+nlp+线性回归,训练,数据库mysql
python·自然语言处理·回归·nlp·线性回归
@sinner15 小时前
你好,Scikit-learn:从零开始你的第一个机器学习项目
python·机器学习·scikit-learn
Jay200211116 小时前
【机器学习】7-9 分类任务 & 逻辑回归的成本函数 & 逻辑回归的梯度下降
笔记·机器学习·分类
Christo319 小时前
AAAI-2024《Multi-Class Support Vector Machine with Maximizing Minimum Margin》
人工智能·算法·机器学习·支持向量机·数据挖掘