谈谈贝叶斯回归

这张图把频率学派线性回归 （左）和贝叶斯线性回归（右）做了一个"同题不同解"的对比。

1) 图左：频率学派（Frequentist）在说什么

假设模型：
β0,β1 是固定但未知的常数
通过最小二乘/极大似然从数据里估出一个最佳点估计 （图里例子给出）
最终画出来就是一条线（外加你可能会另外算"置信区间/预测区间"，但核心仍是"参数固定"）

2) 图右：贝叶斯回归在说什么（图的关键）

贝叶斯的核心换了一句话：

参数不是固定常数，而是"带不确定性的随机变量"。

(1) 先给参数一个先验（prior）

图中画了两条钟形曲线，表示：

直观解释：

μ：你"先验上觉得"截距/斜率大概在哪
σ2：你对这个猜测有多自信（越大=越不确定）

(2) 数据生成假设（likelihood）

右侧写着：

意思是：给定 β0,β1 后，y 围绕直线 β0+β1x 有高斯噪声。

(3) 用数据更新先验 → 得到后验（posterior）

贝叶斯公式一句话：

先验：你原本的看法
似然：数据"支持哪些参数"
后验：综合之后你对参数的新信念（不确定性通常会变小）

(4) "sampling" 与右图那一束线

图中 "sampling" 表示：从后验里抽样出很多组参数

每抽到一组参数，就对应一条回归线：

所以你看到右图不是一条线，而是一束线 + 灰色不确定带：

线束越"散"，表示参数/预测越不确定
数据多、噪声小、先验强，线束会更"收拢"

3) 贝叶斯回归最有用的输出：预测分布（predictive）

贝叶斯最爽的地方是它天然给你：

它不是"给一个点"，而是直接给你在某个 x\* 下，y\* 会落在哪些范围的概率 。

右图灰带就可以理解成某种"可信区间/预测区间"（比如 95% credible interval）。

式子中的"*" 不是乘号 ，而是统计/贝叶斯推导里常用的一个记号：表示"新点 / 未来点 / 测试点（out-of-sample）"。

3.1) 到底表示什么？

训练数据里的自变量通常写（对应 n 个已观测点）
当我们要在一个新的输入上做预测时，就用星号标出来：

= 一个新的 x 值（测试输入）

同理：

：在这个新输入下对应的未来观测值
：在下的回归函数值（不含观测噪声时的"线上的值"）

3.2) 为什么又出现？

这里其实有两个层次的 x：

(A) 标量输入（一个数）

比如你想预测。

(B) 为了包含截距项，把它写成"特征向量"

线性回归写成向量形式：

所以把新点的"特征向量"记为：

（很多书会用粗体或箭头区分：是向量，是标量。）

3.3) 这串式子在说什么（用一句话翻译）

意思是：

给定数据 D 后，在新输入处，"线上的值" f\* 不是一个定值，而服从一个 t 分布；其均值是，不确定性由决定。

4) 你可以用它解决哪些"频率学派不好用/不直观"的问题

小样本：先验能稳定估计，避免斜率飘得离谱
正则化的自然解释 ：

给 β 正态先验 ≈ 一种"L2 正则"（岭回归的贝叶斯视角）
不确定性更直观：直接说"β1 有 95% 概率在 [a,b]"
融入领域知识：比如你确定斜率应该为正、或大概在某个范围

5) 一句话总结这张图

频率学派：一条最佳线（参数固定）
贝叶斯：一团可能的线（参数有分布） ，并且能直接给出预测的不确定性。

那我就用一个**"能手算/看懂"**的小例子，把贝叶斯线性回归从 先验 → 后验 → 采样 → 预测区间完整走一遍（对应你图右边的 sampling + 灰色不确定带）。

0) 玩具数据

我们观测 3 个点（看起来接近 y=1+2x）：

x	0	1	2
y	1	3	5

1) 模型（likelihood）

贝叶斯线性回归常用的高斯噪声模型：

为了让例子简单、计算干净，我们先假设噪声方差已知：

（现实里也可以一起贝叶斯化，后面我会说一句怎么做。）

2) 先验（prior）

给参数一个"你原本的看法"。比如"我觉得截距/斜率大概在 0 附近，但不确定性很大"：

这就对应你图里 β0,β1 的两条钟形曲线：均值是你先验猜测，不确定性由方差控制。

3) 后验（posterior）：把数据"喂进去"更新先验

在"高斯噪声 + 正态先验"的设置下是共轭的：后验仍是正态分布。

把设计矩阵写出来（第一列全 1 表示截距项）：

后验的公式（你可以把它当成一个"贝叶斯版的正规方程"）：

在本例中计算结果是：

解释：

后验均值（最"像"频率学派点估计的那一个数）：
- β0≈1.013
- β1≈1.953
  
  很接近直觉的 1 和 2。
但更关键的是：你还得到了不确定性（协方差矩阵），这就是图右边"不是一条线，而是一束线"的根源。

顺便给个 95% "参数可信区间"（就是把后验当正态做区间）：

β0 大约在 [−0.683, 2.709]
β1 大约在 [0.631, 3.275]

4) sampling：为什么会出现"一束回归线"

图右边的 sampling 就是：

我从这个后验里随手抽 5 组（示例）：

(0.879, 1.989)
(0.499, 2.371)
(1.540, 1.738)
(0.126, 3.025)
(1.328, 1.147)

每一组都对应一条线：

所以你会看到：很多条"可能的回归线"叠在一起------这就是图里的灰色带/线束。

5) 预测分布：灰色不确定带到底是什么

贝叶斯回归最实用的输出是：

对本例（已知）：

预测均值：
预测方差（注意这里多了一个 ，因为观测本身也有噪声）：

举例：取 x\*=1.5

预测均值 ≈3.943
预测标准差 ≈1.205
95% 预测区间 ≈[1.581, 6.304]

这类区间/灰带就是你图右边视觉上表达的东西："在这个 x 处，y 可能落在哪些范围，以及概率多大"。

6) 和频率学派一句话对照

频率学派：给你一个（再额外做置信区间）
贝叶斯：直接给你和
不确定性是第一等公民，自然出现"线束 + 灰带"。

把刚才那个例子升级成 （噪声方差）也未知 的"完整贝叶斯线性回归"。这一步做完，你图里右侧那条灰带就更有"概率意义"了，而且预测分布会变成 Student-t（更厚尾，更稳健）。

1) 模型：参数 + 噪声都当随机变量

数据仍是那 3 个点：(0,1),(1,3),(2,5)

似然（likelihood）

先验（共轭：Normal--Inverse-Gamma）

为了能"手算/闭式更新"，经典选：

其中。

我用一个"弱先验"（不太干预数据）：

（表示先验很宽松）
（几乎不设定噪声大小）

2) 后验更新（闭式公式）

设设计矩阵，样本数 n=3。

后验仍然是 Normal--Inverse-Gamma，更新为：

把数字代进去（本例算出来）：

（后验"最中心"的截距和斜率）

（参数不确定性与相关性）

顺便：的后验是。它的后验均值为

（这里仅作直觉参考）

3) 关键变化：预测分布变成 Student-t

当你把积分掉（不再"假设已知"），得到：

(A) 回归"均值线"在的后验分布（只看线的不确定性）

令，则

(B) 真实观测的预测分布（线的不确定性 + 噪声）

其中自由度

这就是你图里灰色带更"厚"、并且在样本外会明显变宽的原因：
既有"参数不确定性"，也有"噪声不确定性"，而且是 t 分布厚尾。

4) 用两个点看灰带怎么出来

我给你直接算出 95% 预测区间（对应灰带更像"预测带"）：

在（样本区间内）

预测均值：
95% 预测区间：[2.388, 5.497]

在（样本区间外，灰带会更宽）

预测均值：
95% 预测区间：[4.563, 9.182]

你会看到：离数据越远，不确定性越大（灰带越宽），这和右图直觉一致。

5) 这一步在图里对应什么"sampling"？

现在 sampling 更完整了，不只抽 β0,β1，还会抽：

抽
再抽
得到一条线，再叠很多条就是"一束线"
若再加上观测噪声，就能画"预测带"（灰色区域）