神经网络之为什么回归任务的输出是高斯分布的均值

🧩 步骤 1：观测值带有噪声

现实中，我们观测到的 yyy 往往不是完美确定的，它受到测量误差、随机性等因素的影响。

因此我们建模如下：

yi=f(xi;θ)+ϵi \boxed{ y_i = f(x_i; \theta) + \epsilon_i } yi=f(xi;θ)+ϵi

含义：

xix_ixi：输入（特征）
f(xi;θ)f(x_i; \theta)f(xi;θ)：神经网络对输入 xix_ixi 的预测
ϵi\epsilon_iϵi：噪声项（随机误差）

也就是说：预测加上一个噪声，才是我们实际观察到的 yiy_iyi。

🧩 步骤 2：给噪声建模（高斯分布）

我们假设噪声 ϵi\epsilon_iϵi 服从一个均值为 0、方差为 σ2\sigma^2σ2 的高斯分布：

ϵi∼N(0,σ2) \boxed{ \epsilon_i \sim \mathcal{N}(0, \sigma^2) } ϵi∼N(0,σ2)

这意味着每个误差项是：

均值为 0 → 没有系统性偏差（正负误差对称）
方差为 σ2\sigma^2σ2 → 控制不确定性的大小

🧩 步骤 3：推出 yiy_iyi 的分布

现在我们知道：

yi=f(xi;θ)+ϵi,ϵi∼N(0,σ2) y_i = f(x_i; \theta) + \epsilon_i, \quad \epsilon_i \sim \mathcal{N}(0, \sigma^2) yi=f(xi;θ)+ϵi,ϵi∼N(0,σ2)

这是"一个固定值 + 高斯噪声"的形式。

根据概率论中的性质：

如果 Z∼N(0,σ2)Z \sim \mathcal{N}(0, \sigma^2)Z∼N(0,σ2)，那么 a+Z∼N(a,σ2)a + Z \sim \mathcal{N}(a, \sigma^2)a+Z∼N(a,σ2)

所以我们可以得到：

yi∼N(f(xi;θ),σ2) \boxed{ y_i \sim \mathcal{N}(f(x_i; \theta), \sigma^2) } yi∼N(f(xi;θ),σ2)

✅ 解读这一步的含义

我们刚刚推导出的这句话说：

在给定输入 xix_ixi 的情况下，输出 yiy_iyi 是一个高斯随机变量 ，它的均值是神经网络的输出 f(xi;θ)f(x_i; \theta)f(xi;θ)，而方差是固定的 σ2\sigma^2σ2。

因此，神经网络预测的就是这个高斯分布的均值。

🧠 为什么神经网络预测的是均值而不是别的？

我们是从以下建模出发的：

yi=f(xi;θ)+ϵi y_i = f(x_i; \theta) + \epsilon_i yi=f(xi;θ)+ϵi

由于 ϵi\epsilon_iϵi 的均值是 0，所以整个 yiy_iyi 的期望是：

E[yi∣xi]=E[f(xi;θ)+ϵi]=f(xi;θ)+E[ϵi]=f(xi;θ) \mathbb{E}[y_i \mid x_i] = \mathbb{E}[f(x_i; \theta) + \epsilon_i] = f(x_i; \theta) + \mathbb{E}[\epsilon_i] = f(x_i; \theta) E[yi∣xi]=E[f(xi;θ)+ϵi]=f(xi;θ)+E[ϵi]=f(xi;θ)

所以：

神经网络的输出 f(xi;θ)f(x_i; \theta)f(xi;θ) 就是模型对 yiy_iyi 的 条件期望值，也就是高斯分布的均值。

📌 一个例子直观理解

设模型输出：

f(xi;θ)=5 f(x_i; \theta) = 5 f(xi;θ)=5

噪声为 ϵi∼N(0,1)\epsilon_i \sim \mathcal{N}(0, 1)ϵi∼N(0,1)，则：

yi=5+ϵi∼N(5,1) y_i = 5 + \epsilon_i \sim \mathcal{N}(5, 1) yi=5+ϵi∼N(5,1)

这意味着：

对于输入 xix_ixi，模型认为 yiy_iyi 大概率会出现在 5 附近
但实际观测值 yiy_iyi 是随机的（可能是 4.7、5.3 等）
模型预测的值 5 是这整个分布的中心（均值）

🔁 总结整个推导链

步骤	内容
1️⃣	观测值建模：yi=f(xi;θ)+ϵiy_i = f(x_i; \theta) + \epsilon_iyi=f(xi;θ)+ϵi
2️⃣	假设噪声：ϵi∼N(0,σ2)\epsilon_i \sim \mathcal{N}(0, \sigma^2)ϵi∼N(0,σ2)
3️⃣	推出输出：yi∼N(f(xi;θ),σ2)y_i \sim \mathcal{N}(f(x_i; \theta), \sigma^2)yi∼N(f(xi;θ),σ2)
✅	所以：神经网络输出的是这个分布的均值

👀 附加理解：为什么不是输出中位数、众数？

高斯分布是对称分布，均值 = 中位数 = 众数
在非对称分布中，预测"均值"是 MSE（均方误差）下的最优解
所以，如果你使用 MSE 作为损失函数，那么模型会学到输出 期望（均值）