34.1 马尔可夫随机场
马尔可夫随机场 (Markov Random Field,简称MRF) 是典型的马尔可夫网,是一种著名的无向图模型 (每个结点表示一个或一组变量,结点之间的边表示变量之间的相关性)。若其中任意两个结点之间都有边连接,则称此结点子集为一个"团"(clique)。若在一个团中加入任何另外一个结点都不再形成团,则称该团为"极大团"(maximal clique) <不可再发展的团>。
34.1.1 联合概率分布:基于团分解为势函数的乘积
在马尔可夫随机场中,对于n个变量x={x1, x2, ..., xn},++变量之间的联合概率分布能够基于团分解为多个因子的乘积,每个因子仅与一个团相关++。
<在马尔可夫随机场中,"因子"(factor)是一组势函数(potential functions),是定义在每个团的变量子集上的(非负)实函数,用于对团中的变量关系进行建模。>
令所有团构成的集合为C,团Q∈C对应的变量子集为xQ,团Q对应的因子(势函数)为ΨQ,则变量联合概率Px定义为:
其中,Z=Σx ∏(Q∈C)ΨQ(xQ) 为规范化因子 (在实际应用中,精确计算Z通常很困难,但许多任务往往并不需要获得Z的精确值)。注意到如果团Q不是极大团,则它必被一个极大团Q*所包含,这意味着团Q变量子集xQ变量之间的关系不仅体现在势函数ΨQ,还体现在ΨQ*中。所以,P(x)可基于极大团Q*定义:
如图
x={x1, x2, ..., x6}其联合概率分布P(x)定义为
P(x) = (1/Z)Ψ12(x1,x2)Ψ13(x1,x3)Ψ24(x2,x4)Ψ35(x3,x5)Ψ256(x2,x5,x6),
因为极大团{x2,x5,x6}的存在,不需要为Q{x2,x5}, Q{x2,x6}, Q{x5,x6}构建势函数,可由Ψ256替代。
34.1.2 势函数的作用
势函数 的作用是度量xQ中变量之间的相关性,且函数值越大说明对应的变量取值的联合概率越高。
如图
说明此模型偏好变量xA与xC拥有相同的取值,而xB与xC拥有不同的取值 -- xA与xC相同且xB与xC不同的变量取值具有较高的联合概率。
为了满足非负性,势函数常被定义为指数函数,即


其中αuv和βv是参数。上式中的第二项仅考虑单个变量xv,第一项则考虑每一对变量(xu, xv)的相关性。
34.1.3 全局马尔可夫性及其证明与推论
在马尔可夫随机场中如何得到变量之间的"条件独立性"呢?
全局马尔可夫性(global Markov property):给定两个变量子集的"分离集",则这两个变量子集条件独立。
如图
结点子集A中的结点到达B中的结点都必须经过C中的结点,则称A和B被C分离,C称为"分离集"(separatingset);
令A,B和C对应的变量子集分别为xA,xB和xC,则xA和xB在给定xC的条件下独立,记为xA⊥xB|xC ;可得联合概率 P(xA,xB,xC) = (1/Z) ΨAC(xA, xC)ΨBC(xB, xC)。
证明:基于条件概率的定义可得
++P(xA,xB|xC)++ = P(xA,xB,xC)/P(xC) = P(xA,xB,xC) / Σ(x'A)Σ(x'B)P(x'A, x'B, xC)
= (1/Z)ΨAC(xA, xC)ΨBC(xB, xC) / Σ(x'A)Σ(x'B)(1/Z)ΨAC(x'A, xC)ΨBC(x'B, xC)
= ΨAC(xA, xC) ΨBC(xB, xC) / Σ(x'A)ΨAC(x'A, xC) Σ(x'B)ΨBC(x'B, xC)
= [ΨAC(xA, xC)/Σ(x'A)ΨAC(x'A, xC)] [ΨBC(xB, xC)/Σ(x'B)ΨBC(x'B, xC)]
++P(xA|xC)++ = P(xA,xC)/P(xC) = Σ(x'B)P(xA,x'B,xC) / Σ(x'A)Σ(x'B)P(x'A, x'B, xC)
= Σ(x'B)(1/Z)ΨAC(xA, xC)ΨBC(x'B, xC) / Σ(x'A)Σ(x'B)(1/Z)ΨAC(x'A, xC)ΨBC(x'B, xC)
= ΨAC(xA, xC)Σ(x'B)ΨBC(x'B, xC) / Σ(x'A)ΨAC(x'A, xC) Σ(x'B)ΨBC(x'B, xC)
= ΨAC(xA, xC)/Σ(x'A)ΨAC(x'A, xC)
++同理可得 P(xB|xC)++ = P(xB,xC)/P(xC) = Σ(x'A)P(x'A,xB,xC) / Σ(x'A)Σ(x'B)P(x'A, x'B, xC)
= ... = ΨC(xB, xC)/Σ(x'B)ΨBC(x'B, xC)
可得 P(xA,xB|xC) = P(xA|xC)P(xB|xC),即xA和xB在给定xC时条件独立。
由全局马尔可夫性可得两个很有用的推论:
-
局部马尔可夫性(local Markov property):给定某变量(如x1)的邻接变量(如x2,x3),则此变量(如x1)条件独立于其他变量(如x4,x5,x6)。
-
成对马尔可夫性(pairwise Markov property):给定所有其他变量,两个非邻接变量条件独立。
34.2 条件随机场
条件随机场 (Conditional Random Field,简称CRF) 是一种判别式无向图模型 (++可看作给定观测值的马尔可夫随机场++ ,也可看作对率回归的扩展)。
++条件随机场对多个变量在给定观测值后的条件概率进行建模:++ 令x={x1, x2, ..., xn}为观测序列,y={y1, y2, ..., yn}为与之相应的标记序列,条件随机场的目标是构建条件概率模型P(y|x)。
需注意,标记变量y可以是结构型变量,即其分量之间具有某种相关性。例如在自然语言处理的词性标注任务中,观测数据为语句(即单词序列),标记为相应的词性序列,具有线性序列结构;在语法分析任务中,输出标记则是语法树,具有树形结构。
与马尔可夫随机场定义联合概率的方式类似,++条件随机场使用图结构上的团和势函数定义条件概率P(y|x)++ - ++通过选用指数势函数++ 并++引入特征函数(feature function)++ ,条件概率被定义为
P(y|x) = (1/Z) exp[ Σ(j)Σ(i=1,n-1) λj++tj(yi+1, yi, x, i)++ + Σ(k)Σ(i=1,n) μk++sk(yi, x, i)++ ]
其中tj(yi+1,yi,x,i)是定义在(观测序列的)两个相邻标记变量i,i+1之间的++转移特征函数++ (transition feature function),
sk(yi,x,i)是定义在(观测序列的)标记变量i上的++状态特征函数++(status feature function),特征函数通常是实值函数;λj和μk为参数。
条件随机场和马尔可夫随机场均使用团上的势函数定义概率,两者在形式上没有显著区别;但条件随机场处理的是条件概率,而马尔可夫随机场处理的是联合概率。