数据挖掘08 - 技术栈

数据挖掘08------基于统计模型的序列数据挖掘

1.序列数据挖掘方法分类

（1）模式匹配

把未知量伸长或者缩短到参考模式的长度。

然后使用动态规划方法把被比较的数据扭曲或者弯折，时期特征与模型特征对齐。

比如：DTW

（2）统计学习方法

对时间序列结构建立统计模型

比如：HMM 、CRF

（3）神经网络

模拟大脑在处理时间序列信息和工作记忆时所依赖的核心原理

比如：RNN、 LSTM 、 Transformer

2.隐马尔可夫模型

（1）定义

**隐马尔可夫模型（Hidden Markov Model, HMM）**是一种经典的概率图模型，用于建模含有隐藏状态的时序随机过程。

（2）核心思想：看得见的输出，看不见的状态

（3）HMM 的关键假设是：

系统的真实状态（隐藏状态）无法直接观测，但每个状态会以一定概率生成一个可观测的输出（观测值）。

下一状态只依赖于当前状态。

（4）举个例子："天气与冰淇淋"

隐藏状态（真实天气）：晴天（Sunny）、雨天（Rainy）------你不知道每天具体是什么天气。

观测值（你能看到的）：每天朋友吃 1、2 或 3 个冰淇淋。

问题：根据过去一周他吃的冰淇淋数量，推断最可能的天气序列。

这就是HMM模型要做的事。

（5）单选题

答案：A

3.知识抽取中的分词任务

将连续的字符序列切分成有意义的词语单元（tokens）

方法：

基于词典、基于统计模型、工具库（ Jieba、THULAC、HanLP、LTP、PKU分词器）、深度学习

答案：AB

解释：

A很容易理解。

B里指的是词典中存在重叠词，比如：

"直" 是副词（AD）

"直达" 是动词（VV）

当遇到"直达"时，系统可能在"直"和"直达"之间产生歧义：

切成 ["直", "达"] 还是 ["直达"]？

这就是典型的切分歧义（ambiguity in segmentation），尤其是在最大匹配法中容易出现。

D错误。

分词结果高度依赖词典规模：

词典越大，覆盖的词汇越多，越不容易漏掉词语；

词典小 → 容易将真实词切错（如"中国银行"变成"中国"+"银行"没问题，但如果词典没有"中国银行"，可能切错）；

词典过大 → 可能引入噪声或歧义（如上面提到的"直" vs "直达"）。

所以，分词结果与词典规模密切相关。

4.基于HMM的分词方法

（1）两个核心部分：

1）观测序列（Observation）：输入的汉字序列（如 "我爱自然语言处理"）

2）隐状态序列（Hidden States）：每个字对应的分词标签（通常采用 BIES 标注体系）

BIES 标签说明：

B ： Begin，词的开始

I ：Inside，词的中间

E ： End，词的结束

S ： Single，单字成词

例子：

句子："我爱自然语言处理"

正确标签：S S B E B E B E

（2）通过以下概率进行推断：

1）初始状态概率：句子开头是 B/I/E/S 的概率

2）状态转移概率：标签之间的转移概率，如 P(E → B)、P(B → I) 等

3）观测发射概率：某个标签下生成某个字的概率，如 P("自" | B)，由隐状态B生成汉字自的概率。

多选题，加深理解：

答案：BDF

解释：

B错误：

在 BIES 中，B 只能接 M 或 E，不能接另一个 B。

因为一旦一个词开始（B），它必须继续为 M 或结束为 E。

E错误：

因为 E 表示一个词的结尾，下一个字必须是新词的开始（B）或单字（S），不能是另一个词的结尾（E）。

F错误：

因为 M 是词的中间，只能出现在一个多字词的中间。

但 M 前面必须是 B 或 M，后面是 M 或 E。

不能直接从 E → M，因为 E 是词的结尾，下一个字要么是 B（新词开始），要么是 S（单字词）。

所以 E → M 是非法的。