概率论直觉(三):边缘化

这里介绍一下概率论与信息论中的一个核心工具:边缘化(marginalization)。

我们遇到的是:

我们注意到 log P(x_1) 只依赖于 x_1,与 x_2,...,x_n 无关。所以求和可以拆成两部分:先固定 x_1,对 x_2,...,x_n 求和,再对 x_1 求和。

根据边缘概率的定义:

于是得到:

就是我们要的右边部分,这个推导的关键是把依赖于多个变量的函数的联合概率求和,通过边缘化简化成只依赖于部分变量的求和。

边缘化的直观理解:当有联合分布 P(X,Y) 时,有时我们只关心 X 的概率规律,而不管 Y 的具体值。

可以看作"把 Y 的影响累加(或积分)掉",剩下 X 的分布。它的物理意义是,P(X=a) 是在所有可能的 Y 下,事件 X=a 发生的总概率。就像在统计全班学生的(性别, 成绩)联合分布时,如果只想知道性别的分布,就把同一性别的所有成绩的概率加起来。

它确实很重要!

(1)贝叶斯定理中:

分母就是边缘化:

如果没有边缘化,就无法由联合概率得到条件概率公式。

(2)期望计算时,期望的定义:

但如果 X,Y 是联合分布,你想计算 ,可以直接计算:

中间步骤就是边缘化。这说明了在联合分布上计算只依赖于 X 的函数的期望时,可以先将联合分布边缘化成 X 的分布。

(3)信息论中的熵的链式法则 的推导中,用到的就是这种边缘化技巧来分离变量。

另外,联合熵

正是通过边缘化 来关联的。

(4)模型推断与隐变量,在含有隐变量 Z 的模型中,观测数据 X 的似然是:,这是很多EM算法等的基础,就是通过联合概率边缘化得到观测数据的概率。

更抽象地看,边缘化是一种"约化"思想。在概率论中,我们从联合分布提取出部分变量的信息,本质上是一种投影或降维,从高维联合分布到低维边缘分布。


我们可以把边缘化看作一种概率分布的降维投影。高维空间,联合分布 P(X_1, X_2, ..., X_n) 定义在所有变量构成的"网格"上。投影到低维子空间,比如只关心 X_1 的分布,就是沿着 X_2, ..., X_n 这些轴的方向"挤压"概率质量。想象一个二维的联合概率表(X 行,Y 列),求 P(X) 就是把每一行的所有列加起来,写在表格的边缘,这正是"边缘分布"名称的来源。

|------| Y=1 | Y=2 | Y=3 | P(X) |

| X=1 | 0.1 | 0.2 | 0.1 | 0.4 | 这一行求和

| X=2 | 0.05 | 0.25 | 0.3 | 0.6 | 这一行求和

| P(Y) | 0.15 | 0.45 | 0.4 | 1.0 |

表格最右边的列 P(X) 就是通过边缘化 Y 得到的。

为什么边缘化在概率计算中如此"丝滑"?边缘化的"丝滑"建立在概率论的两个基本公理之上:

归一性: 。这保证了在边缘化时,不会出现无穷大或发散问题,总是得到有效的概率分布。

可加性:互斥事件的概率可以直接相加,这是边缘化能成立的核心:

"丝滑"的边缘化之所以成立,是因为 这些事件互斥,不可能同时发生,所以可以直接相加得到"X=a"这个事件的总概率。

求和与函数交换的便利:当你有一个只依赖于部分变量的函数时(比如 g(X)),在联合分布上求期望:

这种交换求和顺序的"丝滑",源于双重求和的可交换性和概率的非负性,保证了求和顺序不影响结果。

如果不是概率场景?如果在一般的多元函数 f(x,y) 上做类似操作: 。这只是一个普通的"部分求和",没有特别的概率意义。但在概率中,因为 P(x,y) 有归一性和可加性,h(x) 自动成为一个合法的边缘概率分布。

"边缘化"这个词确实主要出现在概率统计领域,但它的数学本质是:对一个多元函数在某些维度上求和(或积分),得到较少变量的函数。这种操作在其他领域也有,但名称不同:物理学,可能会说"对某个自由度求和/积分"。统计力学,叫"配分函数的约化"或"trace out",迹掉某些自由度。泛函分析,类似"投影算子"。数据科学:有时叫"聚合(aggregation)"。但在非概率语境中,这种操作不一定保持归一性,因为没有概率公理约束,结果不一定有"分布"的解释。

所以,"边缘化"这个词确实带着强烈的概率论基因,它不仅描述了数学操作,如求和/积分,还隐含了结果是一个合法的概率分布这层含义。

相关推荐
卡布叻_星星20 小时前
Vue 生态演进指南:主流框架搭配以及Vue CLI vs Vite 与 Vue2 vs Vue3 核心区别
笔记
小裕哥略帅20 小时前
PMP学习笔记--环境
笔记·学习
liuaa4121 小时前
期刊论文笔记
笔记
HXR_plume21 小时前
【Web信息处理与应用课程笔记3】个性化检索(上)
笔记
学废了wuwu1 天前
机器学习模型评估指标完全解析:准确率、召回率、F1分数等
人工智能·机器学习
亚里随笔1 天前
突破性框架TRAPO:统一监督微调与强化学习的新范式,显著提升大语言模型推理能力
人工智能·深度学习·机器学习·语言模型·llm·rlhf
救救孩子把1 天前
50-机器学习与大模型开发数学教程-4-12 Bootstrap方法
人工智能·机器学习·bootstrap
Cathy Bryant1 天前
傅里叶变换(一):简介
笔记·算法·数学建模·信息与通信·傅里叶分析
wdfk_prog1 天前
[Linux]学习笔记系列 -- [fs]fs-writeback
linux·笔记·学习
charlie1145141911 天前
嵌入式现代C++教程:C++98——从C向C++的演化(3)
c语言·开发语言·c++·笔记·学习·嵌入式