论文阅读(二)：理解概率图模型的两个要点：关于推理和学习的知识

1.论文链接：Essentials to Understand Probabilistic Graphical Models: A Tutorial about Inference and Learning

摘要：

本章的目的是为没有概率图形模型背景或没有深入背景的科学家提供一个高级教程。对于更熟悉这些模型的读者，本章将作为定义和一般方法的概要，供随意浏览。这一章是有意自成一体的，首先提醒人们注意一些基本的定义，如边缘独立和有条件独立的区别。然后，本章布里介绍了最流行的几类概率图模型：马尔可夫链、贝叶斯网络和马尔可夫随机域。接下来，在贝叶斯网络上下文中解释和说明概率推断。最后给出了参数学习和结构学习的方法。

**关键词：**概率图模型，贝叶斯网络，马尔可夫随机场，参数学习，结构学习，概率推理

背景：

本章的目的是为没有概率图形模型背景或没有深入背景的科学家提供一个高级教程。对于更熟悉这些模型的读者，本章将被用作定义和一般方法的纲要，可以随意浏览。

本章首先从提醒基本定义开始。特别是边缘独立性和条件独立性，利用概率图模型的关键概念之一之间的区别会详细解释。因子图和链图分别被描述为马尔可夫和贝叶斯网络的统一模型和扩展模型。

第2.4节专门讨论贝叶斯网络中的概率推理。作为介绍，三个主要的规范推理查询提到：证据的概率，最可能的解释，最大后验假设。然后，本节概述了用于推理的各种方法的基本原理和技术。精确的推理说明变量消除，消息传递算法，包括和产品算法（或信念传播），条件，和消息传播连接树。特别是，后一个主题引起了围绕图道德化，图三角剖分和连接树建设的发展。近似推理是通过循环和广义的信念传播，随机抽样和变分方法。三个标准的抽样方法适用于近似推理概述吉布斯抽样，大都会黑斯廷斯算法，和重要性抽样。重点放在重要性抽样和变分方法的机制。

2.5节讨论了贝叶斯网络类的参数和结构学习。首先，通过三种标准方法回顾了从完全数据中进行参数学习的过程：一种统计方法（似然最大化）和两种贝叶斯方法（最大后验估计和期望后验估计）。在不完全数据的情况下，描述了一个涉及标准期望最大化（EM）的通用框架。处理结构学习的方法可分为两类。基于约束的方法依赖于依赖性分析。在这一类别中，简短概述了IC和PC算法，并综述了相关概念（独立映射、依赖映射）。在第二类中，启发式策略的基石是使用可分解的和马尔可夫等价的分数。描述了这样的分数，其或者求助于信息论域或者贝叶斯范式。除了启发式搜索有向图的空间，这一节还提到了导航可替换搜索空间的方法；这样的空间是变量排序的空间（与标准K2算法相关）和由贪婪等价搜索方法导航的完全部分有向无环图的空间。为了将基于分数的算法的范围扩展到不完全数据，结构期望最大化提供了一个通用框架，其被解释为通过在每次移动时在参数上嵌入EM的结构空间爬山。最后对隐变量的特殊情况进行了分析。

第2.6节介绍了马尔可夫随机数类的参数和结构学习。在完整数据和一般无向图的情况下，这两个任务仍然比贝叶斯网络更具挑战性。迭代方法，如梯度下降和二阶方法是解决最大化可能性的解决方案。然而，导数的评估需要在马尔可夫网络中进行推理，这也是一个困难的任务，除了三角图。另一方面，通过使用伪似然，有效地规避了似然棘手性。相比之下，三角化图是易于处理的，因为它们表现出联合概率的特殊因子分解。在一般图的情况下，结构学习可以通过使用惩罚伪似然来处理。除了基于分数的算法之外，对优度度量和复杂度度量的凸逼近确保了全局最优值的获得。在这种情况下，说明了一个L1正则化技术。最后，三角图的情况下，表示一类属性来自图论状态如何建立现任图的邻居图，在本地搜索过程中。

在2.7节中，重点是因果网络，它们与贝叶斯网络的区别，以及用于学习其结构的策略。特别是，主动学习的两种模式-批量干预和顺序干预。最后，一个参考文献列表引导读者阅读几本关于概率图模型的著名书籍，以及更具体地关注推理或学习的书籍章节。

2.1 介绍

概率图模型（PGMs）为不确定性和独立性的表示和推理提供了一个定性框架。PGM的定性部分是变量之间的依赖关系的图形表示，例如，由有向无环图（DAG）、无向图（UG）或链图表示，即，可以具有有向和无向边但没有任何有向环的图。关于变量之间的定性依赖关系的不确定性知识是借助于称为参数的概率分布形式化的。参数代表模型的定量部分。在这一介绍性章节中，我们首先简要介绍了最流行的几种PGM，包括马尔可夫随机场（MRF）及其一些变体，贝叶斯网络（BN），一个由因子图类组成的统一模型，以及代表MRF和BN扩展的链图类。然后，我们展示了用于实现概率推理的各种机制，主要是在贝叶斯网络中。随后，我们概述了学习PGMs的突出策略。在大多数应用中，特别是在高维数据的情况下，很少有专家可以指定图形模型的图形结构。因此，不仅需要学习模型的参数，还需要学习图形结构和参数，这在对数据的忠实性和易处理性方面代表了一个艰巨的挑战。在模型学习的教程中，我们还提到了概率图模型依赖于潜变量或隐变量的情况。最后，我们用一个简短的部分来讨论BN和因果网络之间的区别。我们概述了用于学习因果结构的原则。

关于图形模型的文献是大量的。增加这一贡献的动力来自于公认的对介于经典调查和广泛汇编之间的文献的需要。前者的省略风格赋予读者更深的知识。详细的汇编并不是一个综合的观点。因此，我们提供本教程。

这篇文章中提到的参考文献必然代表了一种任意的选择，很大程度上受到作者个人观点和兴趣的影响。在下文中，除非另有明确说明，否则我们将把框架约束为离散随机变量。大写字母表示随机变量。将使用非大写字母表示观察结果。此外，为了简化符号，我们有时会把（对于true或1）和（对于false or 0）分别表示为和。此外，为了简洁起见，我们有时会缩写为。

2.2 基本概念

在本节中，我们回顾了联合分布、边际分布和条件分布等基本概念，以及贝叶斯框架的基石元素。

定义2.1（联合分布、链式法则（或乘积法则））：

两个二元随机变量和的联合（二元）分布定义了事件的概率。这个概念推广到任意数量的随机变量定义一个多变量分布。

链式法则提供了联合分布：

，这里代表取值的域

为了简便，我们仅仅这样写：

定义2.2（边际分布）

给定，有，以及通过将映射到得到的随机变量集合，的联合分布就是的边缘分布，通过在中其他变量的域上对概率进行求和（"边缘化"）得到。被忽略的变量被称为被边缘化。

边缘化过程的表达式为：

因此，条件概率分布可以通过将联合分布除以一个（或多个）变量的边际分布来计算。

定义2.3（双变量情况下的条件分布）

性质2.1（边际分布和条件分布之间的关系）

图2.1和表2.1所示的例子说明了这些概念及其在三变量情况下的关系。

例如，边缘化和得到：

这也可以利用在，，，条件下的四个条件分布来计算，分别用先验（即非条件）概率加权：

现在我们回想一下贝叶斯定理，它以最简单的形式将两个条件概率联系起来。

定义2.4（贝叶斯定理）

给定两个随机变量和，假设

条件独立的概念对于概率图模型是基础性的。让我们首先回顾一下独立性的概念，也称为统计独立性或边缘独立性。

定义2.5（独立性（或边际独立性））

给定两个随机变量和，和之间的独立性（记作）定义为：。不相等意味着两个变量是依赖的（）。上述定义与独立性的直观概念之间的联系也可以通过条件概率的使用来表达。独立性的概念可以通过以下三个等价条件中的任何一个来重新表述，前提是不等于 0 和 1（这两个值都对应于平凡情况）：

这意味着，如果知道事件发生或不发生，或者对的发生没有了解，都不会影响事件发生的概率，那么和是独立的。当和互换时，这种解释仍然成立。

结合表 2.2，并使用网格单元格，图 2.2说明了独立性意味着" 在中的比例"与" 在所有可能性中的比例"保持一致。从而突出了对没有影响。解释独立性的另一种方式是注意到的概率分布对于的所有值都是相同的，的概率分布对于的所有值也都是相同的：对其中一个变量的任何值进行条件化不会改变另一个变量的概率分布。表 2.3 强调了这一点。

定义2.6（条件独立性）

给定三个变量，，。和在给定的状态下的条件独立性定义为：。当时，等价于。

需要注意的是，例如，上述定义中的第二个命题确实意味着以下内容：对于所有和,当

（或者通过交换 A 和 B 对称地得到）；也就是说，A 和 B 在给定 C 的条件下是条件独立的，当且仅当，给定 C 的任何值，A 的概率分布对于 B 的所有值都保持不变（这等价于说，给定 C 的任何值，B 的概率分布对于 A 的所有值都保持不变）。对于边际独立性，只需检查。由于这个问题高度受限，这个等式意味着其他三个等式也得到满足。不那么正式地说，A 和 B 在给定 C 的条件下是条件独立的，当且仅当，给定是否发生 C 的知识，知道 B 是否发生不会提供关于 A 发生概率的信息（这也意味着，对称地，知道 A 是否发生不会提供关于 B 发生概率的信息）。不满足所需约束条件意味着两个变量在给定 C 的条件下是条件相关的，记作。

图 2.3 提供了一个图形说明。它通过建立由对于对于以及对于所有所隐含的约束系统来构建，然后设置网格的表面（n=40）并固定最小数量的参数以解决约束系统。表 2.4 检查对称约束系统是否得到验证。

定义2.7（给定一组变量的条件独立性）

给定变量的一个子集，和在知道的状态下的条件独立性（记作定义为：。不等式意味着在知道（的状态）的情况下，两个变量是条件相关的，这记作。

2.3各类概率图模型

在本节中，我们布里简单回顾了概率图模型的一些流行实例，即无向马尔可夫网络模型或马尔可夫随机数，贝叶斯网络类，以及统一的模型类，因子图和由链图组成的扩展模型。我们记得，我们限制到离散变量的情况。

2.3.1马尔可夫链和隐马尔可夫模型

2.3.2马尔科夫随机场

马尔可夫随机场（MRF）是一种概率图模型，其结构是一个无向图（UG）。必须注意的是，与贝叶斯网络相反，马尔可夫随机场允许循环依赖。另一方面，马尔可夫随机场不能代表贝叶斯网络可以编码的某些依赖，例如诱导依赖。

2.3.3马尔可夫随机场概念的变体

隐马尔可夫随机场

条件随机场

2.3.4贝叶斯网络

最流行的概率图模型之一是贝叶斯网络（BN）。BN在广泛的自动推理应用中发挥着核心作用，包括诊断，传感器验证，概率风险分析，信息融合和纠错码解码。BN的图形组件是有向无环图（DAG）。该DAG确定了联合概率分布的条件分解，从而大大简化了联合分布的计算。该属性减少了描述联合概率分布所需的参数数量。

表2.5概括了当以集合S为条件时，顶点C关闭或打开顶点A和B之间的路径的情况。

2.3.5统一模型和模型扩展

马尔可夫随机数和贝叶斯网络可以用因子图的统一类来表示。另一方面，链图类代表了马尔可夫随机数和贝叶斯网络的扩展。

因子图

基本上，因子图编码了一个可以分解为因子的全局函数[27，51]。例如，图2.6A所示的因子图表示函数的因子分解

链图

链图表示一类图形模型，包括马尔可夫网络和贝叶斯网络作为特殊情况。当变量之间既存在响应解释关系又存在对称关系时，链图是最合适的，而贝叶斯网络更特别地关注前一类关联，而马尔可夫随机场则专门解决后者。作为一个混合图，链图允许有向边和无向边;它的特征在于不存在半有向（或部分有向）圈（见图2.7）。

2.4概率推理

在本节中，我们概述了用于概率推理的各种机制，为了简洁起见，主要关注贝叶斯网络。然而，其中一些方法适用于贝叶斯网络和马尔可夫随机场的推理。推理是查询图形模型的任务。有三个标准的推理查询需要解决。

更复杂的查询可以从以前的查询中构建。贝叶斯网络的推理算法主要分为两种：精确和近似。精确推理查询通过边缘化不相关的变量来求值。一般来说，所需的全部求和是不容易处理的。PE的决策版本是PP-完全的，其中PP代表"概率多项式时间"：问题可以通过运行一个随机的多项式时间算法足够（但有界）的次数来解决到任何指定的准确度。MPE的决策版本是NP-完全的，这意味着它不能以任何已知的方式在多项式时间内求解。MAP的决策版本仍然更加困难。然而，可以开发出易处理的精确算法。

2.4.1精确推理

在这一节中，我们给出了可用于精确推理的各种方法。除非特别艾德，否则下面的方法可以解决贝叶斯网络中的推理问题。然而，贝叶斯网络和马尔可夫随机分布都可以用因子图表示。因此，两类图形模型可以共享用于推断的公共解决方案。

所有精确方法通过系统地利用贝叶斯网络图中编码的条件独立性来计算边缘概率。提出了两类精确方法。第一类方法通过沿着无环图的箭头传播消息来实现感兴趣概率的计算。这一类包括变量消除和树的消息传递，后来扩展到多树。多树是一种不允许无向环的有向无环图（DAG）。通过添加循环切割集条件，消息传递的原理被推广到图中。第二类方法通过道德化和三角剖分从原始图构建一个新结构---一个连接树；然后在这个图的新表示上应用一个适应的消息传播方案。

变量消除

在变量消去法中，由于联合概率分布的因式分解形式，边缘化过程中的一些步骤被简化：因式分解决定了连续边缘化（即消除）的变量的顺序[99，25，56]。这种边缘化相当于一系列当地产品和当地边缘化。消除变量的具体方法取决于手头的查询。特别是，如果目标是解决证据的概率，那么通过求和来消除变量。在MPE查询中，通过最大化变量来消除变量。为了求解MAP，需要执行两种类型的消除。我们用一个玩具例子来说明消除过程：

消息传递算法

条件

连接树中的消息传播

第二类方法依赖于连接树中的消息传播[56，41，72]。在这样的树中，节点是原始图中顶点的簇;因此这些方法被称为聚类方法。其中，消息传播依赖于势的概念以及将联合概率分布分解为集团和分隔符的势。第一步为原始图构建一个连接树，应用道德化，然后三角剖分。我们在下面定义这些概念。

2.4.2近似推理

最常见的近似推理算法有循环置信传播法、广义置信传播法、随机马尔可夫链蒙特卡罗模拟法和变分法等。

循环和广义置信传播

必须注意的是，和积算法也可以应用于具有循环的因子图，因为所有更新都是局部的。更一般地说，循环置信传播是指在包含循环（即无向循环）的BN上使用消息传递方案，例如众所周知的Pearl polytree算法[69]。由于这些循环，将导致没有自然终止的迭代算法，消息在给定的边缘上传递多次。虽然循环置信传播算法的结果不能被解释为精确的边际函数，但这种近似方案在诸如纠错码的主要应用中表现出惊人的性能[60]。直觉是，如果循环很长，那么循环的效果会随着消息的传播而逐渐消失：随着时间的推移，所有的消息都会趋于某种稳定的平衡。循环置信传播确保收敛的条件仍然没有得到很好的理解;例如，已知包含单个循环的图保证收敛，但获得的概率可能是不正确的[64，88]。