1. 模型假设:线性回归的概率形式
线性回归的标准模型假设: \(y^{(i)} = \theta^T x^{(i)} + \varepsilon^{(i)}\)
- \(y^{(i)}\):第 i 个样本的真实标签
- \(x^{(i)}\):第 i 个样本的特征向量
- \(\theta\):待学习的模型参数向量
- \(\varepsilon^{(i)}\):噪声项(误差),服从零均值高斯分布
2. 误差项的概率分布
我们假设噪声 \(\varepsilon^{(i)}\) 服从正态分布: \(p(\varepsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(\varepsilon^{(i)})^2}{2\sigma^2}\right)\)
- 均值为 0,方差为 \(\sigma^2\)
- 含义:误差以 0 为中心,越靠近 0 概率越高,远离 0 概率指数衰减
- 这是线性回归最经典的 "高斯噪声假设"
3. 条件概率:给定 \(x^{(i)}\) 下 \(y^{(i)}\) 的分布
将 \(\varepsilon^{(i)} = y^{(i)} - \theta^T x^{(i)}\) 代入上式,可得: \(p(y^{(i)} | x^{(i)}; \theta) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(y^{(i)} - \theta^T x^{(i)})^2}{2\sigma^2}\right)\)
- 含义:在给定参数 \(\theta\) 和特征 \(x^{(i)}\) 的情况下,观测到标签 \(y^{(i)}\) 的概率
- 形式上,这表示 \(y^{(i)}\) 也服从正态分布,均值为 \(\theta^T x^{(i)}\),方差为 \(\sigma^2\)
4. 似然函数 \(L(\theta)\)
假设样本独立同分布,那么所有样本的联合概率就是单个概率的乘积,这就是似然函数:
\(\begin{align} L(\theta) &= \prod_{i=1}^{m} p(y^{(i)} | x^{(i)}; \theta) \\ &= \prod_{i=1}^{m} \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(y^{(i)} - \theta^T x^{(i)})^2}{2\sigma^2}\right) \end{align}\)
- \(L(\theta)\):关于参数 \(\theta\) 的函数,表示在参数 \(\theta\) 下,观测到当前数据集的 "可能性"
- 我们的目标:找到一组参数 \(\theta\),让 \(L(\theta)\) 最大化(即最大似然估计)
补充:对数似然与最小二乘的等价性
为了简化连乘计算,通常取对数得到对数似然:
\(\ell(\theta) = \log L(\theta) = \sum_{i=1}^m \log\left(\frac{1}{\sqrt{2\pi}\sigma}\right) - \frac{1}{2\sigma^2} \sum_{i=1}^m (y^{(i)} - \theta^T x^{(i)})^2\)
- 最大化 \(\ell(\theta)\),等价于最小化: \(J(\theta) = \sum_{i=1}^m (y^{(i)} - \theta^T x^{(i)})^2\)
- 这就是我们熟悉的最小二乘损失函数 。因此: 在线性回归中,高斯噪声假设下的最大似然估计 ,与最小二乘估计完全等价。