机器学习-回归分析之一元线性回归

📘 机器学习-回归分析之一元线性回归

一、模型定义

当研究某一现象时,如果主要关注的是一个自变量(X)对一个因变量(Y)的影响 ,并且两者具有较强的线性相关关系,可采用一元线性回归模型(Simple Linear Regression Model)

模型形式:Y=β0​+β1​X+ε

  • ( Y ):因变量(被解释变量)
  • ( X ):自变量(解释变量)
  • ( β0 β1 ):模型参数(待估计)
  • ( 𝜀):随机误差项

二、模型的主要假设

  1. 线性关系假设:Y与X呈线性关系。
  2. 独立性假设:各样本之间相互独立。
  3. 同方差性假设:误差项方差相同。
  4. 正态性假设:误差项服从均值为0、方差为σ²的正态分布。

三、参数估计方法

1. 最小二乘法(Ordinary Least Squares, OLS)

目标:通过样本数据,估计出最能代表总体规律的参数 β₀ 和 β₁。

  • 思想:通过观测样本数据,寻找能最小化"预测值与实际值之间偏差平方和"的参数 𝛽0,𝛽1
  • 最小化问题求解过程:为了得到最佳参数,使得误差平方和最小化,
    对 𝛽0,𝛽1β0,β1分别求偏导,并令导数为0,求导 → 联立方程 → 解得:

补充偏导数知识:

1)外层平方 → 用到导数公式 (g(x))^2' = 2g(x)g'(x)

2)对 β₀ 求导时,β₁、Xᵢ、Yᵢ 都是常数

解这两个方程可得:


2、最大似然估计

最大似然估计(Maximum Likelihood Estimation, MLE)

是一种利用样本数据来估计总体分布参数的方法。

它基于"已知样本服从某种分布,但未知参数"的前提,通过选择使样本出现的概率最大化的参数值,作为参数估计结果。


  • 基本思想与直观理解

1️⃣ 假设样本来自某个分布族,例如:

其中 θ是未知参数。

2️⃣ 构建"似然函数":

3️⃣ 取对数简化运算(对数似然函数):

4️⃣ 对参数 (θ ) 求导并令导数为0(寻找极值点):

求得的

就是最大似然估计值。


  • 举例:二项分布下的最大似然估计

假设掷硬币实验中,每次投掷成功(正面朝上)的概率为 ( p ),

观测到的成功次数 ( k ) 服从二项分布:

对应的似然函数为:

取对数求导:

求偏导并令为0:

最终得到:

即样本中"成功次数比例"就是最大似然估计值。✅


  • MLE 在回归模型中的意义

  • 在线性回归中,如果假设误差项服从正态分布 ,

    则最小二乘法(OLS)与最大似然估计(MLE)在数学上是等价的

  • 在逻辑回归中,因变量服从二项分布 ,因此不能使用最小二乘法,而是必须使用最大似然估计法


四、模型检验

1、参数估计:最小二乘估计(LSE)

已知两组数据 𝑥 和 𝑦,使用一元线性回归模型拟合两者之间的关系:

使用最小二乘法(LSE)估计回归方程的系数 ,得到最终回归方程。

已知:

计算得到:

最终回归方程:

2、回归系数是否显著:t 检验

1️⃣ 检验目的

判断因变量 ( y ) 与自变量 ( x ) 是否存在线性关系,即:

2️⃣ 检验水平

α=0.05或0.01

3️⃣ 构造统计量

若 (H0) 成立:

t 统计量定义为:

4️⃣ 判定规则

  • 查 t 分布表,自由度 n - 2 = 13
  • 双尾检验,显著性水平 α = 0.05
  • 临界值:

5️⃣ 结论

若 ( |t| > 2.16 ),拒绝 (H0),认为 x对 y有显著线性影响。

本次结果:拒绝原假设 (H0: β1​= 0),接受 (H1: β1​!=0)。


3、回归方程是否显著:F 检验

1️⃣ 检验目的

判断整个回归方程是否显著,即模型是否有统计意义。

根据平方和分解式

SST = SSR + SSE

  • (SST):总离差平方和(因变量的波动程度)
  • (SSR):回归平方和(由自变量 (x) 引起的波动)
  • (SSE):残差平方和(由其他因素引起的波动)

2️⃣ F统计量公式

3️⃣ 数据与计算结果

方差来源 自由度 平方和(SS) 均方(MS)
回归 1(即 (k-1)) SSR = 841.65 841.65
残差 13(即 (T-k)) SSE = 69.75 5.365
总和 14(即 (T-1)) SST = 911.51 ---

计算统计量:

自由度 ((1, 13)),对应:


4️⃣ 检验结论


4、总结

检验方法 目的 结论
t 检验 单个回归系数显著性 β₁ 显著 ≠ 0
F 检验 整体方程显著性 回归方程显著有效

相关推荐
OpenBayes贝式计算1 天前
解决视频模型痛点,TurboDiffusion 高效视频扩散生成系统;Google Streetview 涵盖多个国家的街景图像数据集
人工智能·深度学习·机器学习
OpenBayes贝式计算1 天前
OCR教程汇总丨DeepSeek/百度飞桨/华中科大等开源创新技术,实现OCR高精度、本地化部署
人工智能·深度学习·机器学习
够快云库2 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全
B站_计算机毕业设计之家2 天前
电影知识图谱推荐问答系统 | Python Django系统 Neo4j MySQL Echarts 协同过滤 大数据 人工智能 毕业设计源码(建议收藏)✅
人工智能·python·机器学习·django·毕业设计·echarts·知识图谱
Flying pigs~~2 天前
机器学习之逻辑回归
人工智能·机器学习·数据挖掘·数据分析·逻辑回归
Evand J2 天前
通过matlab实现机器学习的小项目示例(鸢尾花分类)
机器学习·支持向量机·matlab
_Li.2 天前
Simulink - 6DOF (Euler Angles)
人工智能·算法·机器学习·游戏引擎·cocos2d
Project_Observer2 天前
工时日志在项目进度管理中扮演着怎样的角色?
数据库·深度学习·机器学习
scott1985122 天前
Improving Classifier-Free Guidance of Flow Matching via Manifold Projection
人工智能·python·机器学习