概率论直觉（三）：边缘化

这里介绍一下概率论与信息论中的一个核心工具：边缘化（marginalization）。

我们遇到的是：

我们注意到 log P(x_1) 只依赖于 x_1，与 x_2,...,x_n 无关。所以求和可以拆成两部分：先固定 x_1，对 x_2,...,x_n 求和，再对 x_1 求和。

根据边缘概率的定义：

于是得到：

就是我们要的右边部分，这个推导的关键是把依赖于多个变量的函数的联合概率求和，通过边缘化简化成只依赖于部分变量的求和。

边缘化的直观理解：当有联合分布 P(X,Y) 时，有时我们只关心 X 的概率规律，而不管 Y 的具体值。

可以看作"把 Y 的影响累加（或积分）掉"，剩下 X 的分布。它的物理意义是，P(X=a) 是在所有可能的 Y 下，事件 X=a 发生的总概率。就像在统计全班学生的（性别, 成绩）联合分布时，如果只想知道性别的分布，就把同一性别的所有成绩的概率加起来。

它确实很重要！

（1）贝叶斯定理中：

分母就是边缘化：

如果没有边缘化，就无法由联合概率得到条件概率公式。

（2）期望计算时，期望的定义：

但如果 X,Y 是联合分布，你想计算，可以直接计算：

中间步骤就是边缘化。这说明了在联合分布上计算只依赖于 X 的函数的期望时，可以先将联合分布边缘化成 X 的分布。

（3）信息论中的熵的链式法则的推导中，用到的就是这种边缘化技巧来分离变量。

另外，联合熵

而正是通过边缘化来关联的。

（4）模型推断与隐变量，在含有隐变量 Z 的模型中，观测数据 X 的似然是：，这是很多EM算法等的基础，就是通过联合概率边缘化得到观测数据的概率。

更抽象地看，边缘化是一种"约化"思想。在概率论中，我们从联合分布提取出部分变量的信息，本质上是一种投影或降维，从高维联合分布到低维边缘分布。

我们可以把边缘化看作一种概率分布的降维投影。高维空间，联合分布 P(X_1, X_2, ..., X_n) 定义在所有变量构成的"网格"上。投影到低维子空间，比如只关心 X_1 的分布，就是沿着 X_2, ..., X_n 这些轴的方向"挤压"概率质量。想象一个二维的联合概率表（X 行，Y 列），求 P(X) 就是把每一行的所有列加起来，写在表格的边缘，这正是"边缘分布"名称的来源。

|------| Y=1 | Y=2 | Y=3 | P(X) |

| X=1 | 0.1 | 0.2 | 0.1 | 0.4 | 这一行求和

| X=2 | 0.05 | 0.25 | 0.3 | 0.6 | 这一行求和

| P(Y) | 0.15 | 0.45 | 0.4 | 1.0 |

表格最右边的列 P(X) 就是通过边缘化 Y 得到的。

为什么边缘化在概率计算中如此"丝滑"？边缘化的"丝滑"建立在概率论的两个基本公理之上：

归一性：。这保证了在边缘化时，不会出现无穷大或发散问题，总是得到有效的概率分布。

可加性：互斥事件的概率可以直接相加，这是边缘化能成立的核心：。

"丝滑"的边缘化之所以成立，是因为这些事件互斥，不可能同时发生，所以可以直接相加得到"X=a"这个事件的总概率。

求和与函数交换的便利：当你有一个只依赖于部分变量的函数时（比如 g(X)），在联合分布上求期望：

这种交换求和顺序的"丝滑"，源于双重求和的可交换性和概率的非负性，保证了求和顺序不影响结果。

如果不是概率场景？如果在一般的多元函数 f(x,y) 上做类似操作：。这只是一个普通的"部分求和"，没有特别的概率意义。但在概率中，因为 P(x,y) 有归一性和可加性，h(x) 自动成为一个合法的边缘概率分布。

"边缘化"这个词确实主要出现在概率统计领域，但它的数学本质是：对一个多元函数在某些维度上求和（或积分），得到较少变量的函数。这种操作在其他领域也有，但名称不同：物理学，可能会说"对某个自由度求和/积分"。统计力学，叫"配分函数的约化"或"trace out"，迹掉某些自由度。泛函分析，类似"投影算子"。数据科学：有时叫"聚合（aggregation）"。但在非概率语境中，这种操作不一定保持归一性，因为没有概率公理约束，结果不一定有"分布"的解释。

所以，"边缘化"这个词确实带着强烈的概率论基因，它不仅描述了数学操作，如求和/积分，还隐含了结果是一个合法的概率分布这层含义。