机器学习:马尔可夫模型

后续遇到合适的案例会再补充

1 马尔可夫模型

马尔可夫模型(Markov Model, MM)是一种统计模型,广泛应用在自然语言处理等领域中。

1.1 数学定义

考虑一组随机变量序列 X = { X 0 , X 1 , ... , X t , ...   } X=\{X_{0},X_{1},\dots,X_{t},\dots\} X={X0,X1,...,Xt,...},其中 X t X_{t} Xt表示时刻 t t t的随机变量,并且每个随机变量 X t X_{t} Xt的取值集合相同,称为状态空间 S S S。 S S S可以是离散的,也可以是连续的。

假设在时刻 0 0 0的随机变量 X 0 X_{0} X0遵循概率分布 P ( X 0 ) = π ( 0 ) P(X_{0})=\pi(0) P(X0)=π(0), 即为初始状态分布。若某个时刻 t ≥ 1 t\ge1 t≥1的随机变量 X t X_{t} Xt与前一个时刻的随机变量 X t − 1 X_{t-1} Xt−1之间有条件分布 F ( X t ∣ X t − 1 ) F(X_{t}|X_{t-1}) F(Xt∣Xt−1),并且 X t X_{t} Xt只依赖于 X t − 1 X_{t-1} Xt−1,而不依赖于过去的随机变量 ( X 0 , X 1 , ... , X t − 2 ) (X_{0},X_{1},\dots,X_{t-2}) (X0,X1,...,Xt−2),则 X X X具有马尔可夫性质,称为马尔科夫链。即 P ( X t ∣ X 0 , X 1 , ... , X t − 1 ) = P ( X t ∣ X t − 1 ) , t = 1 , 2 , ... P(X_{t}|X_{0},X_{1},\dots,X_{t-1})=P(X_{t}|X_{t-1}),t=1,2,\dots P(Xt∣X0,X1,...,Xt−1)=P(Xt∣Xt−1),t=1,2,...其中, P ( X t ∣ X t − 1 ) P(X_{t}|X_{t-1}) P(Xt∣Xt−1)称为马尔科夫链的转移概率分布。

另外,若条件转移概率分布与时间 t t t无关,则称为时间齐次的马尔可夫链。即 P ( X t + s ∣ X t + s − 1 ) = P ( X t ∣ X t + 1 ) P(X_{t+s}|X_{t+s-1})=P(X_{t}|X_{t+1}) P(Xt+s∣Xt+s−1)=P(Xt∣Xt+1)  若某个时刻 t ≥ 1 t\ge1 t≥1的随机变量 X t X_{t} Xt与前 n n n个状态相关,则称为 n n n阶马尔可夫链。即 P ( X t ∣ X 0 ... X t − 1 ) = P ( X t ∣ X t − n X t − n + 1 ... X t − 1 ) P(X_{t}|X_{0}\dots X_{t-1})=P(X_{t}|X_{t-n}X_{t-n+1}\dots X_{t-1}) P(Xt∣X0...Xt−1)=P(Xt∣Xt−nXt−n+1...Xt−1)

除了马尔可夫性外,马尔可夫链还可能具有不可约性、常返性、周期性和遍历性。

1.2 两种马尔可夫链
1.2.1 离散马尔可夫链

如果上述随机变量 X t ( t = 0 , 1 , 2 , ... , ) X_{t}(t=0,1,2,\dots,) Xt(t=0,1,2,...,)是定义在离散空间 S S S中,则称为离散马尔可夫链,其转移概率分布可以用矩阵表示。若 S = { 1 , 2 , ... , n } S=\{1,2,\dots,n\} S={1,2,...,n}则转移概率分布矩阵为: P = [ p 11 p 12 ... p 1 n p 21 p 22 ... p 2 n ⋮ ⋮ ⋯ ⋮ p n 1 p n 2 ... p n n ] (1) P=\begin{bmatrix} p_{11} & p_{12} & \dots & p_{1n} \\ p_{21} & p_{22} & \dots & p_{2n} \\ \vdots & \vdots & \cdots & \vdots \\ p_{n1} & p_{n2} & \dots & p_{nn} \end{bmatrix} \tag{1} P= p11p21⋮pn1p12p22⋮pn2......⋯...p1np2n⋮pnn (1)其中 p i j = P ( X t = i ∣ X t − 1 = j ) p_{ij}=P(X_{t}=i|X_{t-1}=j) pij=P(Xt=i∣Xt−1=j)为马尔可夫链在 t − 1 t-1 t−1时刻从状态 j j j转移到时刻 t t t的状态 i i i的概率。 p i j ≥ 0 p_{ij} \ge 0 pij≥0且 ∑ i p i j = 1 \sum_{i}p_{ij}=1 ∑ipij=1。

马尔可夫链在任意时刻 t t t的状态分布,可以由在时刻 t − 1 t-1 t−1的状态分布及转移概率分布决定,即 π ( t ) = P π ( t − 1 ) = P ⋅ P π ( t − 2 ) \pi(t)=P\pi(t-1)=P\cdot P\pi(t-2) π(t)=Pπ(t−1)=P⋅Pπ(t−2)。依次类推 π ( t ) = P t π ( 0 ) \pi(t)=P^{t}\pi(0) π(t)=Ptπ(0)

1.2.2 连续马尔可夫链

如果状态空间 S S S定义在连续空间,则序列 X X X称为连续马尔可夫链。则转移概率分布由概率转移核函数来表示。对任意的 x ∈ S , A ∈ S ) x\in S, A\in S) x∈S,A∈S), 转移概率 P ( x , A ) = ∫ A p ( x , y ) d y P(x,A)=\int_{A} p(x,y)dy P(x,A)=∫Ap(x,y)dy

参考资料

  1. 《统计学习方法》
相关推荐
掘金安东尼2 分钟前
Google+禁用“一次性抓取100条搜索结果”,SEO迎来变革?
人工智能
FIN66688 分钟前
射频技术领域的领航者,昂瑞微IPO即将上会审议
前端·人工智能·前端框架·信息与通信
小麦矩阵系统永久免费19 分钟前
短视频矩阵系统哪个好用?2025最新评测与推荐|小麦矩阵系统
大数据·人工智能·矩阵
Mr.Lee jack21 分钟前
【vLLM】源码解读:高性能大语言模型推理引擎的工程设计与实现
人工智能·语言模型·自然语言处理
IT_陈寒28 分钟前
Java性能优化:这5个Spring Boot隐藏技巧让你的应用提速40%
前端·人工智能·后端
MicroTech202537 分钟前
微算法科技(NASDAQ:MLGO)开发延迟和隐私感知卷积神经网络分布式推理,助力可靠人工智能系统技术
人工智能·科技·算法
喜欢吃豆43 分钟前
多轮智能对话系统架构方案(可实战):从基础模型到自我优化的对话智能体,数据飞轮的重要性
人工智能·语言模型·自然语言处理·系统架构·大模型·多轮智能对话系统
文火冰糖的硅基工坊1 小时前
[嵌入式系统-83]:算力芯片的类型与主流架构
人工智能·重构·架构
视觉语言导航3 小时前
ICRA-2025 | 阿德莱德机器人拓扑导航探索!TANGO:具有局部度量控制的拓扑目标可穿越性感知具身导航
人工智能·机器人·具身智能
西猫雷婶7 小时前
CNN卷积计算
人工智能·神经网络·cnn