01-语言模型+维特比

语言模型的目标是计算一个句子（或一串词序列）出现的概率。比如，判断"我爱你"和"爱我你"哪个更像人话。

核心思想 ：利用链式法则，一句话的概率等于每个词在给定前面所有词时出现概率的乘积。
P(我, 爱, 你) = P(我) × P(爱|我) × P(你|我, 爱)
实际简化（N-gram模型） ：计算"条件概率"时，不可能回溯无限长的历史。通常假设一个词只与它前面的 N-1 个词相关。
- Uni-gram (1-gram) ：词与词完全独立。P(我,爱,你) ≈ P(我)P(爱)P(你) （不考虑上下文，效果差）
- Bi-gram (2-gram) ：只与前一个词相关。P(我,爱,你) ≈ P(我)P(爱|我)P(你|爱)
- Tri-gram (3-gram)：与前两个词相关。这是最常用的折中选择。
应用：
- 机器翻译 ：译成"苹果很好吃"还是"苹果很吃好"？

我们有一个隐马尔可夫模型（HMM），它由两部分构成：

任务：给句子 "我爱编程" 标注词性 （我/代词，爱/动词，编程/名词）。

定义状态：词性集合 {代词, 动词, 名词, 形容词...}
定义观测：单词 {我, 爱, 编程...}
定义概率 ：
- 转移概率 (语言模型) ：P(动词|代词) = 0.4, P(名词|动词) = 0.3...
- 发射概率 ：P(我|代词) = 0.8, P(爱|动词) = 0.9, P(编程|名词) = 0.7...
维特比算法执行过程 ：
- 初始化 (第1个词"我") ：计算"我"是各种词性的概率。V(代词) = P(代词) × P(我|代词)。假设"代词"得分最高。
- 迭代 (第2个词"爱") ：对每个可能的当前词性（如"动词"），计算：
  上一最佳路径概率 × P(当前词性|上一词性) × P(爱|当前词性)
  关键：假设上一词性是"代词"时分数最高，那么到达"动词"的最佳路径就是 ...代词→动词。其他如...名词→动词的路径就被丢弃。
- 终止：处理完最后一个词后，回溯，得到整条最优路径：代词 → 动词 → 名词。

如果没有维特比 ：枚举 代词/动词/名词，代词/名词/动词... 共27种，手工可行，但真实情况有上百种词性，句子有20个词时，组合数远超宇宙原子数。

有了维特比：每次只保留N条候选路径（N=词性个数），计算量线性增长，秒出结果。

概念	角色定位	解决的问题	输出
语言模型	定义"什么是合理的序列" （提供打分标准）	计算某条路径（词序列、词性序列）的合理程度。即 `P(序列)`	一个概率分数
维特比算法	寻找"得分最高的序列" （提供搜索方法）	在指数级爆炸的可能性中，高效找到全局最优路径。	最优的隐藏状态序列