机器学习 - 线性回归（最大后验估计）

liruiqiang052025-02-10 0:35

最大似然估计的一个缺点是当训练数据比较少时会发生过拟合，估计的参数可能不准确.为了避免过拟合，我们可以给参数加上一些先验知识.

一、先从最大似然估计的一个缺点入手

最大似然估计（MLE）在处理小样本数据时，容易发生过拟合，导致估计的参数可能不准确。这是因为MLE旨在找到使观测数据概率最大的参数值，当训练数据较少时，模型可能会过度拟合这些有限的数据点，导致模型在新数据上的泛化能力下降。

原因分析：

数据代表性不足： 小样本数据可能无法充分代表总体数据的分布特征。MLE在这种情况下可能会过度拟合训练数据中的噪声和偶然性，导致模型对训练数据拟合得很好，但在处理新数据时表现不佳。
模型复杂度与数据量不匹配： 当模型的参数数量较多，而训练数据较少时，模型可能会过度拟合训练数据，捕捉到数据中的随机噪声，而不是潜在的真实模式。

解决方法：

为了解决MLE在小样本情况下的过拟合问题，可以考虑以下方法：

引入正则化： 在目标函数中添加正则化项（如L1或L2正则化），可以限制模型的复杂度，防止过拟合。
使用先验信息： 采用最大后验估计（MAP）或贝叶斯估计，将先验知识融入模型，有助于在数据不足时获得更稳健的参数估计。
数据扩充： 通过数据增强技术或收集更多的数据，增加训练样本的数量，降低过拟合的风险。

通过上述方法，可以缓解MLE在小样本情况下的过拟合问题，提高模型的泛化能力。

二、这里我们还需要回顾一下贝叶斯公式

贝叶斯公式描述了在已知某事件发生的情况下，另一个事件发生的概率如何调整。其数学形式为：

其中：

P(A∣B)：事件 B 发生的情况下，事件 A 发生的后验概率。
P(B∣A)：事件 A 发生的情况下，事件 B 发生的条件概率。
P(A)：事件 A 的先验概率，即在未考虑事件 B 时，A 发生的概率。
P(B)：事件 B 的边缘概率，即 B 发生的总体概率。

三、最大后验估计

（一）最大后验估计（MAP）的原理

在贝叶斯统计中，我们不仅关注数据本身（似然函数），还结合对参数的先验知识（先验分布）来进行估计。假设 θ 是我们需要估计的参数，D 表示观测数据，根据贝叶斯公式，参数的后验分布为

其中：

p(D∣θ) 是似然函数，表示在参数 θ 下，数据 D 出现的概率；
p(θ) 是先验分布，表示在看到数据之前对参数 θ 的先验信念；
p(D) 是数据的边缘似然（或称证据），与 θ 无关。

这个过程反映了：MAP估计不仅要考虑数据如何支持参数（似然），还要考虑先验知识对参数的影响。

（二）推导过程

假设我们的数据

来自于某个分布，参数为 θ，且这些数据相互独立，那么似然函数为

先验分布 p(θ)表达了我们对参数在观测数据之前的信念。于是后验分布为

MAP估计就是选择使得 p(D∣θ)p(θ)最大的 θ：

为了便于求解，通常取对数，得到对数后验（注意对数是单调递增函数，最大化对数后验等价于最大化后验）：

接下来，我们对这个表达式关于 θ 求导，令其等于零，从而得到最优参数的条件。

（三）一个简单的例子：抛硬币实验

问题描述：

假设我们希望估计一枚硬币正面朝上的概率 θ，现从硬币中抛出 n 次，观察到 k 次正面。

模型设定：

每次抛掷可以看作一次伯努利试验，结果为1（正面）或0（反面）。
似然函数为：

先验选择：

假设我们对 θ 先验信念服从Beta分布：

其中，α和 β 是先验参数。

后验分布：

根据贝叶斯公式，后验分布为

MAP估计：

Beta分布的众数（在 α,β>1 的条件下）为

这就是在观测到 k 次正面、n 次抛掷，且先验参数为 α 和 β 时，得到的最大后验估计。

理解：

当先验参数为 α=1 和 β=1（即均匀先验）时，MAP估计退化为最大似然估计，即
当数据较少时，先验起到重要作用；当数据较多时，似然部分主导估计，MAP估计趋向于MLE结果。

原理：MAP估计结合了数据的似然和参数的先验分布，通过最大化后验概率来估计参数。
过程：构建似然函数、选择先验、计算后验、取对数、对参数求导、令导数为零求解最优参数。
例子：在抛硬币实验中，通过选择Beta先验和伯努利似然函数，可以得到参数 θ\thetaθ 的后验分布，并由此推导出MAP估计公式。

四、MAP如何应用于线性回归？

在线性回归中，应用**最大后验估计（MAP）**可以有效地结合数据和先验知识，对模型参数进行估计，从而增强模型的稳健性，特别是在数据量较少或存在多重共线性的情况下。

1. 线性回归模型概述

线性回归模型试图拟合输入变量 X 与输出变量 y 之间的线性关系，模型形式为：

其中，X 是 n×d 的设计矩阵，包含 n 个样本的 d 个特征；w 是 d 维的参数向量；ϵ 是误差项，通常假设其服从均值为零、方差为 σ2 的正态分布。

2. 最大后验估计（MAP）在线性回归中的应用

在传统的最小二乘法中，参数估计仅基于观测数据，可能导致在数据稀少或噪声较大时模型的过拟合。MAP估计通过引入先验分布，结合观测数据，提供对参数的更稳健估计。

步骤如下：

其中，σ2/τ2 是正则化参数，控制先验对估计的影响。当 τ2 较小时，先验影响较大；反之，先验影响较小。

3. 与岭回归的关系

值得注意的是，MAP估计与岭回归（L2正则化）密切相关。在岭回归中，通过在损失函数中添加 λ∥w∥2 项来防止过拟合。这种方法等价于对参数 w 施加零均值、方差为 τ2 的高斯先验。因此，MAP估计提供了岭回归的贝叶斯解释。

上一篇：kafka生产端之架构及工作原理

下一篇：AI知识库和全文检索的区别

热门推荐

01Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 02全球最强模型Grok4，国内已可免费使用！（附教程）03UV安装并设置国内源 04ChatGPT 5发布日期揭秘：2025年8月上线，多模态推理能力全面升级 05KGG转MP3工具|非KGM文件|解密音频 06腾讯还是太全面了，限时免费！超全CodeBuddy IDE保姆级教程！（附案例）07如何在 Cursor 中继续使用 Claude 08Claude Code 效率实战指南：从入门到精通的实用技巧（附安装教程）09Cursor 终端“卡死/无响应”问题的解法 10NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南