概率论直觉(三):边缘化

这里介绍一下概率论与信息论中的一个核心工具:边缘化(marginalization)。

我们遇到的是:

我们注意到 log P(x_1) 只依赖于 x_1,与 x_2,...,x_n 无关。所以求和可以拆成两部分:先固定 x_1,对 x_2,...,x_n 求和,再对 x_1 求和。

根据边缘概率的定义:

于是得到:

就是我们要的右边部分,这个推导的关键是把依赖于多个变量的函数的联合概率求和,通过边缘化简化成只依赖于部分变量的求和。

边缘化的直观理解:当有联合分布 P(X,Y) 时,有时我们只关心 X 的概率规律,而不管 Y 的具体值。

可以看作"把 Y 的影响累加(或积分)掉",剩下 X 的分布。它的物理意义是,P(X=a) 是在所有可能的 Y 下,事件 X=a 发生的总概率。就像在统计全班学生的(性别, 成绩)联合分布时,如果只想知道性别的分布,就把同一性别的所有成绩的概率加起来。

它确实很重要!

(1)贝叶斯定理中:

分母就是边缘化:

如果没有边缘化,就无法由联合概率得到条件概率公式。

(2)期望计算时,期望的定义:

但如果 X,Y 是联合分布,你想计算 ,可以直接计算:

中间步骤就是边缘化。这说明了在联合分布上计算只依赖于 X 的函数的期望时,可以先将联合分布边缘化成 X 的分布。

(3)信息论中的熵的链式法则 的推导中,用到的就是这种边缘化技巧来分离变量。

另外,联合熵

正是通过边缘化 来关联的。

(4)模型推断与隐变量,在含有隐变量 Z 的模型中,观测数据 X 的似然是:,这是很多EM算法等的基础,就是通过联合概率边缘化得到观测数据的概率。

更抽象地看,边缘化是一种"约化"思想。在概率论中,我们从联合分布提取出部分变量的信息,本质上是一种投影或降维,从高维联合分布到低维边缘分布。


我们可以把边缘化看作一种概率分布的降维投影。高维空间,联合分布 P(X_1, X_2, ..., X_n) 定义在所有变量构成的"网格"上。投影到低维子空间,比如只关心 X_1 的分布,就是沿着 X_2, ..., X_n 这些轴的方向"挤压"概率质量。想象一个二维的联合概率表(X 行,Y 列),求 P(X) 就是把每一行的所有列加起来,写在表格的边缘,这正是"边缘分布"名称的来源。

|------| Y=1 | Y=2 | Y=3 | P(X) |

| X=1 | 0.1 | 0.2 | 0.1 | 0.4 | 这一行求和

| X=2 | 0.05 | 0.25 | 0.3 | 0.6 | 这一行求和

| P(Y) | 0.15 | 0.45 | 0.4 | 1.0 |

表格最右边的列 P(X) 就是通过边缘化 Y 得到的。

为什么边缘化在概率计算中如此"丝滑"?边缘化的"丝滑"建立在概率论的两个基本公理之上:

归一性: 。这保证了在边缘化时,不会出现无穷大或发散问题,总是得到有效的概率分布。

可加性:互斥事件的概率可以直接相加,这是边缘化能成立的核心:

"丝滑"的边缘化之所以成立,是因为 这些事件互斥,不可能同时发生,所以可以直接相加得到"X=a"这个事件的总概率。

求和与函数交换的便利:当你有一个只依赖于部分变量的函数时(比如 g(X)),在联合分布上求期望:

这种交换求和顺序的"丝滑",源于双重求和的可交换性和概率的非负性,保证了求和顺序不影响结果。

如果不是概率场景?如果在一般的多元函数 f(x,y) 上做类似操作: 。这只是一个普通的"部分求和",没有特别的概率意义。但在概率中,因为 P(x,y) 有归一性和可加性,h(x) 自动成为一个合法的边缘概率分布。

"边缘化"这个词确实主要出现在概率统计领域,但它的数学本质是:对一个多元函数在某些维度上求和(或积分),得到较少变量的函数。这种操作在其他领域也有,但名称不同:物理学,可能会说"对某个自由度求和/积分"。统计力学,叫"配分函数的约化"或"trace out",迹掉某些自由度。泛函分析,类似"投影算子"。数据科学:有时叫"聚合(aggregation)"。但在非概率语境中,这种操作不一定保持归一性,因为没有概率公理约束,结果不一定有"分布"的解释。

所以,"边缘化"这个词确实带着强烈的概率论基因,它不仅描述了数学操作,如求和/积分,还隐含了结果是一个合法的概率分布这层含义。

相关推荐
R-G-B1 小时前
【P19 机器学习-分类算法及应用实践】手写数字识别(KNN)
python·机器学习·分类·手写数字识别·knn算法
roman_日积跬步-终至千里1 小时前
【模式识别与机器学习】机器学习练习题集
人工智能·机器学习
摇滚侠1 小时前
2025最新 SpringCloud 教程,Gateway-过滤器-自定义,全局跨域,总结,笔记61,笔记62,笔记63
笔记·spring cloud·gateway
xian_wwq1 小时前
【学习笔记】数据要素市场新基石:可信数据空间技术架构详解
笔记·学习
(; ̄ェ ̄)。1 小时前
机器学习入门(一),线性回归
人工智能·机器学习
悟悟悟!1 小时前
git使用笔记:git日常工作流和命名规范
笔记·git·elasticsearch
degen_1 小时前
编写其他UEFI application:读取CPUID
c语言·笔记·bios
大千AI助手1 小时前
汉明距离:度量差异的基石与AI应用
人工智能·机器学习·距离度量·汉明距离·大千ai助手·hammingdistance·纠错码
漏洞文库-Web安全1 小时前
CTFHub 信息泄露通关笔记9:Git泄露 Index - 指南
笔记·git·安全·web安全·elasticsearch·网络安全·ctf