概率论直觉(三):边缘化

这里介绍一下概率论与信息论中的一个核心工具:边缘化(marginalization)。

我们遇到的是:

我们注意到 log P(x_1) 只依赖于 x_1,与 x_2,...,x_n 无关。所以求和可以拆成两部分:先固定 x_1,对 x_2,...,x_n 求和,再对 x_1 求和。

根据边缘概率的定义:

于是得到:

就是我们要的右边部分,这个推导的关键是把依赖于多个变量的函数的联合概率求和,通过边缘化简化成只依赖于部分变量的求和。

边缘化的直观理解:当有联合分布 P(X,Y) 时,有时我们只关心 X 的概率规律,而不管 Y 的具体值。

可以看作"把 Y 的影响累加(或积分)掉",剩下 X 的分布。它的物理意义是,P(X=a) 是在所有可能的 Y 下,事件 X=a 发生的总概率。就像在统计全班学生的(性别, 成绩)联合分布时,如果只想知道性别的分布,就把同一性别的所有成绩的概率加起来。

它确实很重要!

(1)贝叶斯定理中:

分母就是边缘化:

如果没有边缘化,就无法由联合概率得到条件概率公式。

(2)期望计算时,期望的定义:

但如果 X,Y 是联合分布,你想计算 ,可以直接计算:

中间步骤就是边缘化。这说明了在联合分布上计算只依赖于 X 的函数的期望时,可以先将联合分布边缘化成 X 的分布。

(3)信息论中的熵的链式法则 的推导中,用到的就是这种边缘化技巧来分离变量。

另外,联合熵

正是通过边缘化 来关联的。

(4)模型推断与隐变量,在含有隐变量 Z 的模型中,观测数据 X 的似然是:,这是很多EM算法等的基础,就是通过联合概率边缘化得到观测数据的概率。

更抽象地看,边缘化是一种"约化"思想。在概率论中,我们从联合分布提取出部分变量的信息,本质上是一种投影或降维,从高维联合分布到低维边缘分布。


我们可以把边缘化看作一种概率分布的降维投影。高维空间,联合分布 P(X_1, X_2, ..., X_n) 定义在所有变量构成的"网格"上。投影到低维子空间,比如只关心 X_1 的分布,就是沿着 X_2, ..., X_n 这些轴的方向"挤压"概率质量。想象一个二维的联合概率表(X 行,Y 列),求 P(X) 就是把每一行的所有列加起来,写在表格的边缘,这正是"边缘分布"名称的来源。

|------| Y=1 | Y=2 | Y=3 | P(X) |

| X=1 | 0.1 | 0.2 | 0.1 | 0.4 | 这一行求和

| X=2 | 0.05 | 0.25 | 0.3 | 0.6 | 这一行求和

| P(Y) | 0.15 | 0.45 | 0.4 | 1.0 |

表格最右边的列 P(X) 就是通过边缘化 Y 得到的。

为什么边缘化在概率计算中如此"丝滑"?边缘化的"丝滑"建立在概率论的两个基本公理之上:

归一性: 。这保证了在边缘化时,不会出现无穷大或发散问题,总是得到有效的概率分布。

可加性:互斥事件的概率可以直接相加,这是边缘化能成立的核心:

"丝滑"的边缘化之所以成立,是因为 这些事件互斥,不可能同时发生,所以可以直接相加得到"X=a"这个事件的总概率。

求和与函数交换的便利:当你有一个只依赖于部分变量的函数时(比如 g(X)),在联合分布上求期望:

这种交换求和顺序的"丝滑",源于双重求和的可交换性和概率的非负性,保证了求和顺序不影响结果。

如果不是概率场景?如果在一般的多元函数 f(x,y) 上做类似操作: 。这只是一个普通的"部分求和",没有特别的概率意义。但在概率中,因为 P(x,y) 有归一性和可加性,h(x) 自动成为一个合法的边缘概率分布。

"边缘化"这个词确实主要出现在概率统计领域,但它的数学本质是:对一个多元函数在某些维度上求和(或积分),得到较少变量的函数。这种操作在其他领域也有,但名称不同:物理学,可能会说"对某个自由度求和/积分"。统计力学,叫"配分函数的约化"或"trace out",迹掉某些自由度。泛函分析,类似"投影算子"。数据科学:有时叫"聚合(aggregation)"。但在非概率语境中,这种操作不一定保持归一性,因为没有概率公理约束,结果不一定有"分布"的解释。

所以,"边缘化"这个词确实带着强烈的概率论基因,它不仅描述了数学操作,如求和/积分,还隐含了结果是一个合法的概率分布这层含义。

相关推荐
财富自由且长命百岁1 天前
移动端老兵转型端侧 AI:第一周,我跑通了 ResNet50 推理
机器学习
一轮弯弯的明月1 天前
贝尔数求集合划分方案总数
java·笔记·蓝桥杯·学习心得
航Hang*1 天前
第3章:Linux系统安全管理——第2节:部署代理服务
linux·运维·服务器·开发语言·笔记·系统安全
zjnlswd1 天前
tkinter学习案例--笔记代码
笔记·学习
独小乐1 天前
009.中断实践之实现按键测试|千篇笔记实现嵌入式全栈/裸机篇
linux·c语言·驱动开发·笔记·嵌入式硬件·arm
无聊大侠hello world1 天前
Yu-AI-Agent 项目(AI 恋爱大师智能体) · 学习笔记
人工智能·笔记·学习
CheerWWW1 天前
C++学习笔记——箭头运算符、std::vector的使用、静态链接、动态链接
c++·笔记·学习
沅_Yuan1 天前
基于核密度估计的CNN-LSTM-Attention-KDE多输入单输出回归模型【MATLAB】
机器学习·回归·cnn·lstm·attention·核密度估计·kde
爱学习的小仙女!1 天前
机器学习面试题(二) 损失函数 常见损失函数
人工智能·机器学习
ZhiqianXia1 天前
Pytorch 学习笔记(17):decompositions.py —— 算子分解的百科全书
pytorch·笔记·学习