机器学习 - 线性回归(最大后验估计)

最大似然估计的一个缺点是当训练数据比较少时会发生过拟合,估计的参数可能不准确.为了避免过拟合,我们可以给参数加上一些先验知识.

一、先从最大似然估计的一个缺点入手

最大似然估计(MLE)在处理小样本数据时,容易发生过拟合,导致估计的参数可能不准确。这是因为MLE旨在找到使观测数据概率最大的参数值,当训练数据较少时,模型可能会过度拟合这些有限的数据点,导致模型在新数据上的泛化能力下降。

原因分析:

  1. 数据代表性不足: 小样本数据可能无法充分代表总体数据的分布特征。MLE在这种情况下可能会过度拟合训练数据中的噪声和偶然性,导致模型对训练数据拟合得很好,但在处理新数据时表现不佳。

  2. 模型复杂度与数据量不匹配: 当模型的参数数量较多,而训练数据较少时,模型可能会过度拟合训练数据,捕捉到数据中的随机噪声,而不是潜在的真实模式。

解决方法:

为了解决MLE在小样本情况下的过拟合问题,可以考虑以下方法:

  1. 引入正则化: 在目标函数中添加正则化项(如L1或L2正则化),可以限制模型的复杂度,防止过拟合。

  2. 使用先验信息: 采用最大后验估计(MAP)或贝叶斯估计,将先验知识融入模型,有助于在数据不足时获得更稳健的参数估计。

  3. 数据扩充: 通过数据增强技术或收集更多的数据,增加训练样本的数量,降低过拟合的风险。

通过上述方法,可以缓解MLE在小样本情况下的过拟合问题,提高模型的泛化能力。

二、这里我们还需要回顾一下贝叶斯公式

贝叶斯公式描述了在已知某事件发生的情况下,另一个事件发生的概率如何调整。其数学形式为:

其中:

  • P(A∣B):事件 B 发生的情况下,事件 A 发生的后验概率

  • P(B∣A):事件 A 发生的情况下,事件 B 发生的条件概率

  • P(A):事件 A 的先验概率,即在未考虑事件 B 时,A 发生的概率。

  • P(B):事件 B 的边缘概率,即 B 发生的总体概率。

三、最大后验估计

(一)最大后验估计(MAP)的原理

在贝叶斯统计中,我们不仅关注数据本身(似然函数),还结合对参数的先验知识(先验分布)来进行估计。假设 θ 是我们需要估计的参数,D 表示观测数据,根据贝叶斯公式,参数的后验分布为

其中:

  • p(D∣θ) 是似然函数,表示在参数 θ 下,数据 D 出现的概率;
  • p(θ) 是先验分布,表示在看到数据之前对参数 θ 的先验信念;
  • p(D) 是数据的边缘似然(或称证据),与 θ 无关。

这个过程反映了:MAP估计不仅要考虑数据如何支持参数(似然),还要考虑先验知识对参数的影响

(二)推导过程

假设我们的数据

来自于某个分布,参数为 θ,且这些数据相互独立,那么似然函数为

先验分布 p(θ)表达了我们对参数在观测数据之前的信念。于是后验分布为

MAP估计就是选择使得 p(D∣θ)p(θ)最大的 θ:

为了便于求解,通常取对数,得到对数后验(注意对数是单调递增函数,最大化对数后验等价于最大化后验):

接下来,我们对这个表达式关于 θ 求导,令其等于零,从而得到最优参数的条件。

(三)一个简单的例子:抛硬币实验

问题描述:

假设我们希望估计一枚硬币正面朝上的概率 θ,现从硬币中抛出 n 次,观察到 k 次正面。

模型设定:

  • 每次抛掷可以看作一次伯努利试验,结果为1(正面)或0(反面)。

  • 似然函数为:

先验选择:

假设我们对 θ 先验信念服从Beta分布:

其中,α和 β 是先验参数。

后验分布:

根据贝叶斯公式,后验分布为

MAP估计:

Beta分布的众数(在 α,β>1 的条件下)为

这就是在观测到 k 次正面、n 次抛掷,且先验参数为 α 和 β 时,得到的最大后验估计。

理解:

  • 当先验参数为 α=1 和 β=1(即均匀先验)时,MAP估计退化为最大似然估计,即

  • 当数据较少时,先验起到重要作用;当数据较多时,似然部分主导估计,MAP估计趋向于MLE结果。

  • 原理:MAP估计结合了数据的似然和参数的先验分布,通过最大化后验概率来估计参数。
  • 过程:构建似然函数、选择先验、计算后验、取对数、对参数求导、令导数为零求解最优参数。
  • 例子:在抛硬币实验中,通过选择Beta先验和伯努利似然函数,可以得到参数 θ\thetaθ 的后验分布,并由此推导出MAP估计公式。

四、MAP如何应用于线性回归?

线性回归中,应用**最大后验估计(MAP)**可以有效地结合数据和先验知识,对模型参数进行估计,从而增强模型的稳健性,特别是在数据量较少或存在多重共线性的情况下。

1. 线性回归模型概述

线性回归模型试图拟合输入变量 X 与输出变量 y 之间的线性关系,模型形式为:

其中,X 是 n×d 的设计矩阵,包含 n 个样本的 d 个特征;w 是 d 维的参数向量;ϵ 是误差项,通常假设其服从均值为零、方差为 σ2 的正态分布。

2. 最大后验估计(MAP)在线性回归中的应用

在传统的最小二乘法中,参数估计仅基于观测数据,可能导致在数据稀少或噪声较大时模型的过拟合。MAP估计通过引入先验分布,结合观测数据,提供对参数的更稳健估计。

步骤如下:

其中,σ2/τ2​ 是正则化参数,控制先验对估计的影响。当 τ2 较小时,先验影响较大;反之,先验影响较小。

3. 与岭回归的关系

值得注意的是,MAP估计与岭回归(L2正则化)密切相关。在岭回归中,通过在损失函数中添加 λ∥w∥2 项来防止过拟合。这种方法等价于对参数 w 施加零均值、方差为 τ2 的高斯先验。因此,MAP估计提供了岭回归的贝叶斯解释。

相关推荐
elecfan201128 分钟前
本地化部署AI知识库:基于Ollama+DeepSeek+AnythingLLM保姆级教程
人工智能
幸福右手牵1 小时前
WPS如何接入DeepSeek(通过JS宏调用)
javascript·人工智能·深度学习·wps·deepseek
cchjyq1 小时前
opencv:基于暗通道先验(DCP)的内窥镜图像去雾
java·c++·图像处理·人工智能·opencv·计算机视觉
幸福右手牵1 小时前
WPS如何接入DeepSeek(通过第三方工具)
人工智能·深度学习·wps·deepseek
大数据技术架构2 小时前
构建您的专属AI助手:在钉钉上部署DeepSeek
人工智能·钉钉
有续技术2 小时前
DEEPSEEK与GPT等AI技术在机床数据采集与数字化转型中的应用与影响
大数据·人工智能·gpt
NCU_wander3 小时前
大语言模型RAG,transformer和mamba
人工智能·语言模型·transformer
西猫雷婶3 小时前
python学opencv|读取图像(五十九)使用cv2.dilate()函数实现图像膨胀处理
人工智能·opencv·计算机视觉
IT古董3 小时前
【漫话机器学习系列】087.常见的神经网络最优化算法(Common Optimizers Of Neural Nets)
神经网络·算法·机器学习
数据学习(Datalearner)3 小时前
什么是推理大模型?DeepSeek R1推理大模型与DeepSeek V3模型的区别是什么?什么时候该使用推理大模型?
人工智能·深度学习·机器学习·大模型·推理大模型