线性回归的似然函数推导

1. 模型假设：线性回归的概率形式

线性回归的标准模型假设： \(y^{(i)} = \theta^T x^{(i)} + \varepsilon^{(i)}\)

\(y^{(i)}\)：第 i 个样本的真实标签
\(x^{(i)}\)：第 i 个样本的特征向量
\(\theta\)：待学习的模型参数向量
\(\varepsilon^{(i)}\)：噪声项（误差），服从零均值高斯分布

2. 误差项的概率分布

我们假设噪声 \(\varepsilon^{(i)}\) 服从正态分布： \(p(\varepsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(\varepsilon^{(i)})^2}{2\sigma^2}\right)\)

均值为 0，方差为 \(\sigma^2\)
含义：误差以 0 为中心，越靠近 0 概率越高，远离 0 概率指数衰减
这是线性回归最经典的 "高斯噪声假设"

3. 条件概率：给定 \(x^{(i)}\) 下 \(y^{(i)}\) 的分布

将 \(\varepsilon^{(i)} = y^{(i)} - \theta^T x^{(i)}\) 代入上式，可得： \(p(y^{(i)} | x^{(i)}; \theta) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(y^{(i)} - \theta^T x^{(i)})^2}{2\sigma^2}\right)\)

含义：在给定参数 \(\theta\) 和特征 \(x^{(i)}\) 的情况下，观测到标签 \(y^{(i)}\) 的概率
形式上，这表示 \(y^{(i)}\) 也服从正态分布，均值为 \(\theta^T x^{(i)}\)，方差为 \(\sigma^2\)

4. 似然函数 \(L(\theta)\)

假设样本独立同分布，那么所有样本的联合概率就是单个概率的乘积，这就是似然函数：

\(\begin{align} L(\theta) &= \prod_{i=1}^{m} p(y^{(i)} | x^{(i)}; \theta) \\ &= \prod_{i=1}^{m} \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(y^{(i)} - \theta^T x^{(i)})^2}{2\sigma^2}\right) \end{align}\)

\(L(\theta)\)：关于参数 \(\theta\) 的函数，表示在参数 \(\theta\) 下，观测到当前数据集的 "可能性"
我们的目标：找到一组参数 \(\theta\)，让 \(L(\theta)\) 最大化（即最大似然估计）

补充：对数似然与最小二乘的等价性

为了简化连乘计算，通常取对数得到对数似然：

\(\ell(\theta) = \log L(\theta) = \sum_{i=1}^m \log\left(\frac{1}{\sqrt{2\pi}\sigma}\right) - \frac{1}{2\sigma^2} \sum_{i=1}^m (y^{(i)} - \theta^T x^{(i)})^2\)

最大化 \(\ell(\theta)\)，等价于最小化： \(J(\theta) = \sum_{i=1}^m (y^{(i)} - \theta^T x^{(i)})^2\)
这就是我们熟悉的最小二乘损失函数 。因此：在线性回归中，高斯噪声假设下的最大似然估计 ，与最小二乘估计完全等价。