机器学习(三十四) 概率图模型-马尔可夫随机场与条件随机场

34.1 马尔可夫随机场

马尔可夫随机场 (Markov Random Field,简称MRF) 是典型的马尔可夫网,是一种著名的无向图模型 (每个结点表示一个或一组变量,结点之间的边表示变量之间的相关性)。若其中任意两个结点之间都有边连接,则称此结点子集为一个""(clique)。若在一个团中加入任何另外一个结点都不再形成团,则称该团为"极大团"(maximal clique) <不可再发展的团>。

34.1.1 联合概率分布:基于团分解为势函数的乘积

在马尔可夫随机场中,对于n个变量x={x1, x2, ..., xn},++变量之间的联合概率分布能够基于团分解为多个因子的乘积,每个因子仅与一个团相关++。

<在马尔可夫随机场中,"因子"(factor)是一组势函数(potential functions),是定义在每个团的变量子集上的(非负)实函数,用于对团中的变量关系进行建模。>

令所有团构成的集合为C,团Q∈C对应的变量子集为xQ,团Q对应的因子(势函数)为ΨQ,则变量联合概率Px定义为:

其中,Z=Σx ∏(Q∈C)ΨQ(xQ) 为规范化因子 (在实际应用中,精确计算Z通常很困难,但许多任务往往并不需要获得Z的精确值)。注意到如果团Q不是极大团,则它必被一个极大团Q*所包含,这意味着团Q变量子集xQ变量之间的关系不仅体现在势函数ΨQ,还体现在ΨQ*中。所以,P(x)可基于极大团Q*定义:

如图 x={x1, x2, ..., x6}其联合概率分布P(x)定义为

P(x) = (1/Z)Ψ12(x1,x2)Ψ13(x1,x3)Ψ24(x2,x4)Ψ35(x3,x5)Ψ256(x2,x5,x6),

因为极大团{x2,x5,x6}的存在,不需要为Q{x2,x5}, Q{x2,x6}, Q{x5,x6}构建势函数,可由Ψ256替代。

34.1.2 势函数的作用

势函数 的作用是度量xQ中变量之间的相关性,且函数值越大说明对应的变量取值的联合概率越高。

如图 说明此模型偏好变量xA与xC拥有相同的取值,而xB与xC拥有不同的取值 -- xA与xC相同且xB与xC不同的变量取值具有较高的联合概率。

为了满足非负性,势函数常被定义为指数函数,即

其中αuv和βv是参数。上式中的第二项仅考虑单个变量xv,第一项则考虑每一对变量(xu, xv)的相关性。

34.1.3 全局马尔可夫性及其证明与推论

在马尔可夫随机场中如何得到变量之间的"条件独立性"呢?

全局马尔可夫性(global Markov property):给定两个变量子集的"分离集",则这两个变量子集条件独立。

如图 结点子集A中的结点到达B中的结点都必须经过C中的结点,则称A和B被C分离,C称为"分离集"(separatingset);

令A,B和C对应的变量子集分别为xA,xB和xC,则xA和xB在给定xC的条件下独立,记为xA⊥xB|xC ;可得联合概率 P(xA,xB,xC) = (1/Z) ΨAC(xA, xC)ΨBC(xB, xC)。

证明:基于条件概率的定义可得

++P(xA,xB|xC)++ = P(xA,xB,xC)/P(xC) = P(xA,xB,xC) / Σ(x'A)Σ(x'B)P(x'A, x'B, xC)

= (1/Z)ΨAC(xA, xC)ΨBC(xB, xC) / Σ(x'A)Σ(x'B)(1/Z)ΨAC(x'A, xC)ΨBC(x'B, xC)

= ΨAC(xA, xC) ΨBC(xB, xC) / Σ(x'A)ΨAC(x'A, xC) Σ(x'B)ΨBC(x'B, xC)

= [ΨAC(xA, xC)/Σ(x'A)ΨAC(x'A, xC)] [ΨBC(xB, xC)/Σ(x'B)ΨBC(x'B, xC)]

++P(xA|xC)++ = P(xA,xC)/P(xC) = Σ(x'B)P(xA,x'B,xC) / Σ(x'A)Σ(x'B)P(x'A, x'B, xC)

= Σ(x'B)(1/Z)ΨAC(xA, xC)ΨBC(x'B, xC) / Σ(x'A)Σ(x'B)(1/Z)ΨAC(x'A, xC)ΨBC(x'B, xC)

= ΨAC(xA, xC)Σ(x'B)ΨBC(x'B, xC) / Σ(x'A)ΨAC(x'A, xC) Σ(x'B)ΨBC(x'B, xC)

= ΨAC(xA, xC)/Σ(x'A)ΨAC(x'A, xC)

++同理可得 P(xB|xC)++ = P(xB,xC)/P(xC) = Σ(x'A)P(x'A,xB,xC) / Σ(x'A)Σ(x'B)P(x'A, x'B, xC)

= ... = ΨC(xB, xC)/Σ(x'B)ΨBC(x'B, xC)

可得 P(xA,xB|xC) = P(xA|xC)P(xB|xC),即xA和xB在给定xC时条件独立。

由全局马尔可夫性可得两个很有用的推论:

  1. 局部马尔可夫性(local Markov property):给定某变量(如x1)的邻接变量(如x2,x3),则此变量(如x1)条件独立于其他变量(如x4,x5,x6)。

  2. 成对马尔可夫性(pairwise Markov property):给定所有其他变量,两个非邻接变量条件独立。

34.2 条件随机场

条件随机场 (Conditional Random Field,简称CRF) 是一种判别式无向图模型 (++可看作给定观测值的马尔可夫随机场++ ,也可看作对率回归的扩展)。
++条件随机场对多个变量在给定观测值后的条件概率进行建模:++ 令x={x1, x2, ..., xn}为观测序列,y={y1, y2, ..., yn}为与之相应的标记序列,条件随机场的目标是构建条件概率模型P(y|x)。

需注意,标记变量y可以是结构型变量,即其分量之间具有某种相关性。例如在自然语言处理的词性标注任务中,观测数据为语句(即单词序列),标记为相应的词性序列,具有线性序列结构;在语法分析任务中,输出标记则是语法树,具有树形结构。

与马尔可夫随机场定义联合概率的方式类似,++条件随机场使用图结构上的团和势函数定义条件概率P(y|x)++ - ++通过选用指数势函数++ 并++引入特征函数(feature function)++ ,条件概率被定义为

P(y|x) = (1/Z) exp[ Σ(j)Σ(i=1,n-1) λj++tj(yi+1, yi, x, i)++ + Σ(k)Σ(i=1,n) μk++sk(yi, x, i)++ ]

其中tj(yi+1,yi,x,i)是定义在(观测序列的)两个相邻标记变量i,i+1之间的++转移特征函数++ (transition feature function),

sk(yi,x,i)是定义在(观测序列的)标记变量i上的++状态特征函数++(status feature function),特征函数通常是实值函数;λj和μk为参数。

条件随机场和马尔可夫随机场均使用团上的势函数定义概率,两者在形式上没有显著区别;但条件随机场处理的是条件概率,而马尔可夫随机场处理的是联合概率。

相关推荐
nap-joker18 小时前
阿尔茨海默病分期早期检测的多模式深度学习模型
人工智能·深度学习·adni
郑寿昌18 小时前
1.6T光模块将成AI数据中心主流
人工智能
赵药师18 小时前
Cityscape数据集转YOLO
人工智能·深度学习·yolo
aneasystone本尊18 小时前
让外部世界唤醒小龙虾:Webhook 与 Standing Orders
人工智能
Hector_zh18 小时前
JiuwenClaw 持久化存储落地:从方案到生产的实践验证
人工智能·ai编程
天天代码码天天18 小时前
C# 结合 llama.cpp 实现 PaddleOCR-VL-1.5:本地 OCR 客户端开发全攻略
人工智能
o_insist18 小时前
多层感知机判断氨基酸亲疏水性(PyTorch版)
人工智能·深度学习·机器学习
AICAT19 小时前
让主题模型“心领神会”:GCTM-OT如何用目标提示与最优传输终结跑偏话题
人工智能
数字时代全景窗19 小时前
数字的长征:从蒸汽机到智能体——可计算化革命的底层演进脉络
人工智能·架构·软件工程
LinDaiDai_霖呆呆19 小时前
大白话介绍大模型的一些底层原理,看完终于能跟人聊两句了
前端·人工智能·面试