谈谈贝叶斯回归

这张图把频率学派线性回归 (左)和贝叶斯线性回归(右)做了一个"同题不同解"的对比。


1) 图左:频率学派(Frequentist)在说什么

  • 假设模型:

  • β0,β1 是固定但未知的常数

  • 通过最小二乘/极大似然从数据里估出一个最佳点估计 (图里例子给出

  • 最终画出来就是一条线(外加你可能会另外算"置信区间/预测区间",但核心仍是"参数固定")


2) 图右:贝叶斯回归在说什么(图的关键)

贝叶斯的核心换了一句话:

参数不是固定常数,而是"带不确定性的随机变量"。

(1) 先给参数一个先验(prior)

图中画了两条钟形曲线,表示:

直观解释:

  • μ:你"先验上觉得"截距/斜率大概在哪

  • σ2:你对这个猜测有多自信(越大=越不确定)

(2) 数据生成假设(likelihood)

右侧写着:

意思是:给定 β0,β1​ 后,y 围绕直线 β0+β1x 有高斯噪声。

(3) 用数据更新先验 → 得到后验(posterior)

贝叶斯公式一句话:

  • 先验:你原本的看法

  • 似然:数据"支持哪些参数"

  • 后验:综合之后你对参数的新信念(不确定性通常会变小)

(4) "sampling" 与右图那一束线

图中 "sampling" 表示:从后验里抽样出很多组参数

每抽到一组参数,就对应一条回归线:

所以你看到右图不是一条线,而是一束线 + 灰色不确定带

  • 线束越"散",表示参数/预测越不确定

  • 数据多、噪声小、先验强,线束会更"收拢"


3) 贝叶斯回归最有用的输出:预测分布(predictive)

贝叶斯最爽的地方是它天然给你:

它不是"给一个点",而是直接给你在某个 x\*​ 下,y\*​ 会落在哪些范围的概率

右图灰带就可以理解成某种"可信区间/预测区间"(比如 95% credible interval)。

式子中的"*" 不是乘号 ,而是统计/贝叶斯推导里常用的一个记号 :表示"新点 / 未来点 / 测试点(out-of-sample)"。

3.1)    到底表示什么?

  • 训练数据里的自变量通常写 ​(对应 n 个已观测点)

  • 当我们要在一个新的输入上做预测时,就用星号标出来:

  =  一个新的 x 值(测试输入)

同理:

  • :在这个新输入 下对应的未来观测值

  • :在 下的回归函数值(不含观测噪声时的"线上的值")

3.2) 为什么又出现

这里其实有两个层次的 x:

(A) 标量输入(一个数)

比如你想预测

(B) 为了包含截距项,把它写成"特征向量"

线性回归写成向量形式:

所以把新点的"特征向量"记为:

(很多书会用粗体或箭头区分: 是向量, 是标量。)


3.3) 这串式子在说什么(用一句话翻译)

意思是:

给定数据 D 后,在新输入 处,"线上的值" f\*​ 不是一个定值,而服从一个 t 分布;其均值是 ,不确定性由 决定。


4) 你可以用它解决哪些"频率学派不好用/不直观"的问题

  • 小样本:先验能稳定估计,避免斜率飘得离谱

  • 正则化的自然解释

    给 β 正态先验 ≈ 一种"L2 正则"(岭回归的贝叶斯视角)

  • 不确定性更直观:直接说"β1​ 有 95% 概率在 [a,b]"

  • 融入领域知识:比如你确定斜率应该为正、或大概在某个范围


5) 一句话总结这张图

  • 频率学派:一条最佳线(参数固定)

  • 贝叶斯:一团可能的线(参数有分布) ,并且能直接给出预测的不确定性

那我就用一个**"能手算/看懂"**的小例子,把贝叶斯线性回归从 先验 → 后验 → 采样 → 预测区间完整走一遍(对应你图右边的 sampling + 灰色不确定带)。


0) 玩具数据

我们观测 3 个点(看起来接近 y=1+2x):

x 0 1 2
y 1 3 5

1) 模型(likelihood)

贝叶斯线性回归常用的高斯噪声模型:

为了让例子简单、计算干净,我们先假设噪声方差已知:

(现实里 也可以一起贝叶斯化,后面我会说一句怎么做。)


2) 先验(prior)

给参数一个"你原本的看法"。比如"我觉得截距/斜率大概在 0 附近,但不确定性很大":

这就对应你图里 β0,β1 的两条钟形曲线:均值是你先验猜测,不确定性由方差控制


3) 后验(posterior):把数据"喂进去"更新先验

在"高斯噪声 + 正态先验"的设置下是共轭的:后验仍是正态分布。

把设计矩阵写出来(第一列全 1 表示截距项):

后验的公式(你可以把它当成一个"贝叶斯版的正规方程"):

在本例中计算结果是:

解释:

  • 后验均值(最"像"频率学派点估计的那一个数):

    • β0≈1.013

    • β1≈1.953

      很接近直觉的 1 和 2。

  • 但更关键的是:你还得到了不确定性(协方差矩阵),这就是图右边"不是一条线,而是一束线"的根源。

顺便给个 95% "参数可信区间"(就是把后验当正态做区间):

  • β0​ 大约在 [−0.683, 2.709]

  • β1​ 大约在 [0.631, 3.275]


4) sampling:为什么会出现"一束回归线"

图右边的 sampling 就是:

我从这个后验里随手抽 5 组(示例):

  1. (0.879, 1.989)

  2. (0.499, 2.371)

  3. (1.540, 1.738)

  4. (0.126, 3.025)

  5. (1.328, 1.147)

每一组都对应一条线:

所以你会看到:很多条"可能的回归线"叠在一起------这就是图里的灰色带/线束。


5) 预测分布:灰色不确定带到底是什么

贝叶斯回归最实用的输出是:

对本例( 已知):

  • 预测均值:

  • 预测方差(注意这里多了一个 ,因为观测本身也有噪声):

举例:取 x\*=1.5

  • 预测均值 ≈3.943

  • 预测标准差 ≈1.205

  • 95% 预测区间 ≈[1.581, 6.304]

这类区间/灰带就是你图右边视觉上表达的东西:"在这个 x 处,y 可能落在哪些范围,以及概率多大"


6) 和频率学派一句话对照

  • 频率学派:给你一个 (再额外做置信区间)

  • 贝叶斯:直接给你
    不确定性是第一等公民,自然出现"线束 + 灰带"。

把刚才那个例子升级成 (噪声方差)也未知 的"完整贝叶斯线性回归"。这一步做完,你图里右侧那条灰带就更有"概率意义"了,而且预测分布会变成 Student-t(更厚尾,更稳健)。


1) 模型:参数 + 噪声都当随机变量

数据仍是那 3 个点:(0,1),(1,3),(2,5)

似然(likelihood)

先验(共轭:Normal--Inverse-Gamma)

为了能"手算/闭式更新",经典选:

其中

我用一个"弱先验"(不太干预数据):

  • (表示先验很宽松)

  • (几乎不设定噪声大小)


2) 后验更新(闭式公式)

设设计矩阵 ​​,样本数 n=3。

后验仍然是 Normal--Inverse-Gamma,更新为:

把数字代进去(本例算出来):

(后验"最中心"的截距和斜率)

(参数不确定性与相关性)

顺便: 的后验是 。它的后验均值为

(这里仅作直觉参考)


3) 关键变化:预测分布变成 Student-t

当你把 积分掉(不再"假设已知"),得到:

(A) 回归"均值线"在 的后验分布(只看线的不确定性)

,则

(B) 真实观测 的预测分布(线的不确定性 + 噪声)

其中自由度

这就是你图里灰色带更"厚"、并且在样本外会明显变宽的原因:
既有"参数不确定性",也有"噪声不确定性",而且是 t 分布厚尾。


4) 用两个点看灰带怎么出来

我给你直接算出 95% 预测区间(对应灰带更像"预测带"):

(样本区间内)

  • 预测均值:

  • 95% 预测区间:[2.388, 5.497]

(样本区间外,灰带会更宽)

  • 预测均值:

  • 95% 预测区间:[4.563, 9.182]

你会看到:离数据越远,不确定性越大(灰带越宽),这和右图直觉一致。


5) 这一步在图里对应什么"sampling"?

现在 sampling 更完整了,不只抽 β0,β1​,还会抽

  1. 再抽

  2. 得到一条线 ,再叠很多条就是"一束线"

  3. 若再加上观测噪声,就能画"预测带"(灰色区域)

相关推荐
阿杰学AI12 小时前
AI核心知识74——大语言模型之ReAct 范式(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·agent·react范式
新缸中之脑12 小时前
TabPFN:表格数据基础模型
人工智能
工程师老罗12 小时前
Pytorch中的优化器及其用法
人工智能·pytorch·python
2501_9481201512 小时前
大语言模型与爬虫技术融合的智能数据采集系统
人工智能·爬虫·语言模型
老蒋每日coding12 小时前
AI Agentic 交互:从图形界面到现实世界环境
人工智能
github.com/starRTC12 小时前
Claude Code中英文系列教程24:使用钩子hooks扩展 Claude Code 的行为
人工智能·ai编程
名字不好奇12 小时前
词嵌入与向量化
人工智能
子午12 小时前
【2026计算机毕设~AI项目】鸟类识别系统~Python+深度学习+人工智能+图像识别+算法模型
图像处理·人工智能·python·深度学习
发哥来了12 小时前
《AI视频生成工具选型评测:多维度解析主流产品优劣势》
人工智能
DisonTangor12 小时前
美团龙猫开源LongCat-Flash-Lite
人工智能·语言模型·自然语言处理·开源·aigc