【机器学习】27. 马尔科夫链和隐马模型HMM

马尔科夫链和隐马模型HMM

[1. Markov chain](#1. Markov chain)
[2. 计算](#2. 计算)
[3. Hidden Markov Model](#3. Hidden Markov Model)
[4. 两个假设](#4. 两个假设)
[5. 问题1：evaluation](#5. 问题1：evaluation)
[6. Forward 算法](#6. Forward 算法)
[7. 问题2：Decoding](#7. 问题2：Decoding)
[8. Viterbi算法](#8. Viterbi算法)
[9. 问题3：Learning](#9. 问题3：Learning)
[10. 期望最大化算法Expectation Maximization](#10. 期望最大化算法Expectation Maximization)

1. Markov chain

马尔可夫链是描述从一种状态到另一种状态的转换序列的模型，其中每种状态的概率仅取决于前一种状态

假设：

任何具体状态的概率只取决于之前的状态（不取决于更早的历史）。

2. 计算

前三天分别是 Sunny, cloudy, sunny, 第二天是sunny的概率是？

P[tomorrow=Sunny | S, C, S ] = P[tomorrow = Sunny | today = Sunny] = 0.8

表格可以用图表示，箭头指向下一个状态。

加入初始状态概率的计算

P的|后面是前一个状态

P(Sunny, sunny, cloudy, rainy)

= P(sunny)(sunny|sunnny)(cloudy|sunny)(rainy|cloudy)

= 0.1 * 0.8 * 0.1 *0.2 = 0.0016

3. Hidden Markov Model

马尔可夫模型在需要计算可直接观测状态的概率时很有用。

隐马尔可夫模型用于我们无法直接观察状态（它们是隐藏的），但我们可以根据间接信息对其进行判断的情况。

什么是隐藏的？天气

你能看到什么？衬衫夹克、连帽衫

λ = (π, A, A0)

π 是N个可能的隐藏状态

A是每个状态转换的概率矩阵

A0是每个状态的初始概率

4. 两个假设

齐次性假设: 即假设隐藏的马尔可夫链在任意时刻t的状态只依赖于它在前一时刻的状态, 与其他时刻的状态和观测无关, 也与时刻t本身无关
观测独立性假设: 即假设任意时刻的观测值只依赖于该时刻的马尔可夫链的状态, 与其他观测及状态无关

5. 问题1：evaluation

给定一个λ = (π, A, A0)HMM模型和一个观测序列X = x1, x2, x3, ...计算序列出现概率。

计算 X = shirt, Hoodie的概率

A中的每个概率都要计算X=shirt，Hoodie的概率

在9种组合里先计算Rainy,Cloudy

P(X, {Rainy, Cloudy})

初始状态是Rainy = 0.6
从Rainy 到 Cloudy = 0.3
观测概率
- 在Rainy的时候，Shirt的概率是0.8
- 在Cloudy的时候，Hoodie的概率是0.1

结果为0.6 * 0.3* 0.8*0.1 = 0.0144

计算9种组合相加，得到最终概率。

计算的复杂度为2TN^T。T是时间步长，N是状态个数

6. Forward 算法

直接案例理解

初始化：计算在t=1的时候，每个状态的前向概率
f k ( 1 ) = A 0 ( k ) e k ( x 1 ) f_k(1) = A_0(k)e_k(x_1) fk(1)=A0(k)ek(x1)
f r a i n y ( 1 ) = A 0 ( r a i n y ) e r a i n y ( S h i r t ) = 0.6 ∗ 0.8 f_{rainy}(1) = A_0(rainy)e_{rainy}(Shirt)= 0.6 * 0.8 frainy(1)=A0(rainy)erainy(Shirt)=0.6∗0.8
可以得到cloud和sunny的f（1）为0.15和0.001
迭代
f k ( i ) = e k ( x i ) ∑ j f j ( i − 1 ) a j k f_k(i) = e_k(x_i)\sum_j f_j(i-1)a_{jk} fk(i)=ek(xi)j∑fj(i−1)ajk
f r a i n y ( 2 ) = e r a i n y ( H o o d i e ) ( f r a i n y ( 1 ) a ( r a i n y , r a i n y ) + f c l o u d y ( 1 ) a ( c l o u d y , r a i n y ) + f s u n n y ( 1 ) a ( s u n n y , r a i n y ) ) = 0.01 ∗ ( 0.48 ∗ 0.6 + 0.15 ∗ 0.4 + 0.001 ∗ 0.1 ) = 0.0035 f_{rainy}(2) = e_{rainy}(Hoodie)(f_{rainy}(1)a(rainy,rainy)+f_{cloudy}(1)a(cloudy,rainy)+f_{sunny}(1)a(sunny,rainy)) = 0.01*(0.48*0.6+0.15*0.4+0.001*0.1) = 0.0035 frainy(2)=erainy(Hoodie)(frainy(1)a(rainy,rainy)+fcloudy(1)a(cloudy,rainy)+fsunny(1)a(sunny,rainy))=0.01∗(0.48∗0.6+0.15∗0.4+0.001∗0.1)=0.0035
3.最后一个步长就等于最后的所有f_k(i)相加，这里是f(2)的和，三个状态，就是cloud,sunny,rainy,各自一个f(2)

7. 问题2：Decoding

问题1是：给定一个λ = (π, A, A0)HMM模型和一个观测序列X = x1, x2, x3, ...计算序列出现概率。

问题2是：给定一个λ = (π, A, A0)HMM模型和一个观测序列X = x1, x2, x3, ...计算最可能的隐藏序列

8. Viterbi算法

初始化
计算每个状态的Viterbi分数
V k ( 1 ) = A 0 ( k ) e k ( x 1 ) V_k(1) = A_0(k)e_k(x_1) Vk(1)=A0(k)ek(x1)

V r a i n y ( 1 ) = A 0 ( R a i n y ) e R a i n y ( S h i r t ) = 0.6 ∗ 0.8 = 0.48 V_{rainy}(1) = A_0(Rainy)e_{Rainy}(Shirt) = 0.6 *0.8 = 0.48 Vrainy(1)=A0(Rainy)eRainy(Shirt)=0.6∗0.8=0.48

同理得到cloud和sunny的v1为0.15，0.001

2.迭代

计算状态k在时间i的vierbi得分
V k ( i ) = e k ( x i ) m a x j V j ( i − 1 ) a j k V_k(i) = e_k(x_i)max_jV_j(i-1)a_{jk} Vk(i)=ek(xi)maxjVj(i−1)ajk

记录回溯路径
P t r k ( i ) = a r g m a x j V j ( i − 1 ) a j k Ptr_k(i) = argmax_jV_j(i-1)a_{jk} Ptrk(i)=argmaxjVj(i−1)ajk
V r a i n y ( 2 ) = e r a i n y ( H o o d i e ) ∗ m a x ( V r a i n y ( 1 ) a r a i n y , r a i n y , V c l o u d y ( 1 ) a c l o u d y , r a i n y , V s u n n y ( 1 ) a s u n n y , r a i n y ) = 0.01 ∗ m a x ( 0.48 ∗ 0.6 , 0.15 ∗ 0.4 , 0.001 ∗ 0.1 ) = 0.0029 V_{rainy}(2) = e_{rainy}(Hoodie) * max(V_{rainy}(1)a_{rainy,rainy}, V_{cloudy}(1)a_{cloudy,rainy},V_{sunny}(1)a_{sunny, rainy}) = 0.01 * max(0.48*0.6, 0.15*0.4, 0.001*0.1) = 0.0029 Vrainy(2)=erainy(Hoodie)∗max(Vrainy(1)arainy,rainy,Vcloudy(1)acloudy,rainy,Vsunny(1)asunny,rainy)=0.01∗max(0.48∗0.6,0.15∗0.4,0.001∗0.1)=0.0029

Ptr的最大索引是rainy，1（假设）

3.终止

Ptr2是rainy

Ptr3 = argmax(V_k(2))，最大是Sunny

所以最终答案是Rainy，sunny

9. 问题3：Learning

问题1是：给定一个λ = (π, A, A0)HMM模型和一个观测序列X = x1, x2, x3, ...计算序列出现概率。

问题2是：给定一个λ = (π, A, A0)HMM模型和一个观测序列X = x1, x2, x3, ...计算最可能的隐藏序列

问题3是：给定一个一个观测序列X = x1, x2, x3, ...找到λ = (π, A, A0)HMM模型

10. 期望最大化算法Expectation Maximization

λ = (π, A, A0) 随机初始化
计算每个状态下的概率分布
利用2中的概率更新λ = (π, A, A0)，使得给定预测数据的似然函数最大化，涉及预测最可能序列并于实际观测序列进行比较
如果模型更新后，p(x|λ)增加，就回第二步继续迭代，否则停止