神经网络之为什么回归任务的输出是高斯分布的均值

🧩 步骤 1:观测值带有噪声

现实中,我们观测到的 yyy 往往不是完美确定的,它受到测量误差、随机性等因素的影响。

因此我们建模如下:

yi=f(xi;θ)+ϵi \boxed{ y_i = f(x_i; \theta) + \epsilon_i } yi=f(xi;θ)+ϵi

含义:

  • xix_ixi:输入(特征)
  • f(xi;θ)f(x_i; \theta)f(xi;θ):神经网络对输入 xix_ixi 的预测
  • ϵi\epsilon_iϵi:噪声项(随机误差)

也就是说:预测加上一个噪声,才是我们实际观察到的 yiy_iyi。


🧩 步骤 2:给噪声建模(高斯分布)

我们假设噪声 ϵi\epsilon_iϵi 服从一个均值为 0、方差为 σ2\sigma^2σ2高斯分布

ϵi∼N(0,σ2) \boxed{ \epsilon_i \sim \mathcal{N}(0, \sigma^2) } ϵi∼N(0,σ2)

这意味着每个误差项是:

  • 均值为 0 → 没有系统性偏差(正负误差对称)
  • 方差为 σ2\sigma^2σ2 → 控制不确定性的大小

🧩 步骤 3:推出 yiy_iyi 的分布

现在我们知道:

yi=f(xi;θ)+ϵi,ϵi∼N(0,σ2) y_i = f(x_i; \theta) + \epsilon_i, \quad \epsilon_i \sim \mathcal{N}(0, \sigma^2) yi=f(xi;θ)+ϵi,ϵi∼N(0,σ2)

这是"一个固定值 + 高斯噪声"的形式。

根据概率论中的性质

如果 Z∼N(0,σ2)Z \sim \mathcal{N}(0, \sigma^2)Z∼N(0,σ2),那么 a+Z∼N(a,σ2)a + Z \sim \mathcal{N}(a, \sigma^2)a+Z∼N(a,σ2)

所以我们可以得到:

yi∼N(f(xi;θ),σ2) \boxed{ y_i \sim \mathcal{N}(f(x_i; \theta), \sigma^2) } yi∼N(f(xi;θ),σ2)


✅ 解读这一步的含义

我们刚刚推导出的这句话说:

在给定输入 xix_ixi 的情况下,输出 yiy_iyi 是一个高斯随机变量 ,它的均值是神经网络的输出 f(xi;θ)f(x_i; \theta)f(xi;θ),而方差是固定的 σ2\sigma^2σ2

因此,神经网络预测的就是这个高斯分布的均值。


🧠 为什么神经网络预测的是均值而不是别的?

我们是从以下建模出发的:

yi=f(xi;θ)+ϵi y_i = f(x_i; \theta) + \epsilon_i yi=f(xi;θ)+ϵi

由于 ϵi\epsilon_iϵi 的均值是 0,所以整个 yiy_iyi 的期望是:

E[yi∣xi]=E[f(xi;θ)+ϵi]=f(xi;θ)+E[ϵi]=f(xi;θ) \mathbb{E}[y_i \mid x_i] = \mathbb{E}[f(x_i; \theta) + \epsilon_i] = f(x_i; \theta) + \mathbb{E}[\epsilon_i] = f(x_i; \theta) E[yi∣xi]=E[f(xi;θ)+ϵi]=f(xi;θ)+E[ϵi]=f(xi;θ)

所以:

神经网络的输出 f(xi;θ)f(x_i; \theta)f(xi;θ) 就是模型对 yiy_iyi 的 条件期望值,也就是高斯分布的均值。


📌 一个例子直观理解

设模型输出:

f(xi;θ)=5 f(x_i; \theta) = 5 f(xi;θ)=5

噪声为 ϵi∼N(0,1)\epsilon_i \sim \mathcal{N}(0, 1)ϵi∼N(0,1),则:

yi=5+ϵi∼N(5,1) y_i = 5 + \epsilon_i \sim \mathcal{N}(5, 1) yi=5+ϵi∼N(5,1)

这意味着:

  • 对于输入 xix_ixi,模型认为 yiy_iyi 大概率会出现在 5 附近
  • 但实际观测值 yiy_iyi 是随机的(可能是 4.7、5.3 等)
  • 模型预测的值 5 是这整个分布的中心(均值)

🔁 总结整个推导链

步骤 内容
1️⃣ 观测值建模:yi=f(xi;θ)+ϵiy_i = f(x_i; \theta) + \epsilon_iyi=f(xi;θ)+ϵi
2️⃣ 假设噪声:ϵi∼N(0,σ2)\epsilon_i \sim \mathcal{N}(0, \sigma^2)ϵi∼N(0,σ2)
3️⃣ 推出输出:yi∼N(f(xi;θ),σ2)y_i \sim \mathcal{N}(f(x_i; \theta), \sigma^2)yi∼N(f(xi;θ),σ2)
所以:神经网络输出的是这个分布的均值

👀 附加理解:为什么不是输出中位数、众数?

  • 高斯分布是对称分布,均值 = 中位数 = 众数
  • 在非对称分布中,预测"均值"是 MSE(均方误差)下的最优解
  • 所以,如果你使用 MSE 作为损失函数,那么模型会学到输出 期望(均值)
相关推荐
龙文浩_11 分钟前
AI中NLP的深入浅出注意力机制 Seq2Seq 模型
人工智能·pytorch·深度学习·神经网络·自然语言处理
Dfreedom.3 小时前
【实战篇】神经网络在回归任务中的应用
人工智能·神经网络·算法·机器学习·回归
没有梦想的咸鱼185-1037-16634 小时前
AI大模型支持下的顶刊绘图|散点图、气泡图、柱状图、热力图、柱状图、热力图、箱线图、热力图、云雨图、韦恩图、瀑布图、神经网络图、时间序列或分布展示
人工智能·神经网络·arcgis·信息可视化·数据分析·r语言·ai写作
沅_Yuan4 小时前
基于RIME-CNN-SVM的多输入单输出回归预测模型【MATLAB】
神经网络·支持向量机·matlab·回归·cnn·svm·rime
AI、少年郎4 小时前
如何用个人电脑快速训练自己的语言模型?MiniMind 全流程实战指南
人工智能·python·神经网络·ai·自然语言处理·大模型·模型训练微调
大连好光景4 小时前
模型的评价指标(分类+回归)
人工智能·分类·回归
宝贝儿好4 小时前
【LLM】第一章:分词算法BPE、WordPiece、Unigram、分词工具jieba
人工智能·python·深度学习·神经网络·算法·语言模型·自然语言处理
渡我白衣4 小时前
运筹帷幄——在线学习与实时预测系统
人工智能·深度学习·神经网络·学习·算法·机器学习·caffe
电磁脑机19 小时前
无总线场同步:意识本质、AGI困境与脑机革命的核心理论重构
分布式·神经网络·架构·信号处理·agi
沅_Yuan20 小时前
基于核密度估计的Transformer-LSTM-KDE多输入单输出回归模型【MATLAB】
matlab·回归·lstm·transformer·核密度估计·kde