数据挖掘08

**

数据挖掘08------基于统计模型的序列数据挖掘

**

1.序列数据挖掘方法分类

(1)模式匹配

把未知量伸长或者缩短到参考模式的长度。

然后使用动态规划方法把被比较的数据扭曲或者弯折,时期特征与模型特征对齐。

比如:DTW

(2)统计学习方法

对时间序列结构建立统计模型

比如:HMM 、CRF

(3)神经网络

模拟大脑在处理时间序列信息和工作记忆时所依赖的核心原理

比如:RNN、 LSTM 、 Transformer

2.隐马尔可夫模型

(1)定义

**隐马尔可夫模型(Hidden Markov Model, HMM)**是一种经典的概率图模型,用于建模含有隐藏状态的时序随机过程。

(2)核心思想:看得见的输出,看不见的状态

(3)HMM 的关键假设是:

系统的真实状态(隐藏状态)无法直接观测,但每个状态会以一定概率生成一个可观测的输出(观测值)。

下一状态只依赖于当前状态。

(4)举个例子:"天气与冰淇淋"

隐藏状态(真实天气):晴天(Sunny)、雨天(Rainy)------你不知道每天具体是什么天气。

观测值(你能看到的):每天朋友吃 1、2 或 3 个冰淇淋。

问题:根据过去一周他吃的冰淇淋数量,推断最可能的天气序列。

这就是HMM模型要做的事。

(5)单选题


答案:A

3.知识抽取中的分词任务

将连续的字符序列切分成有意义的词语单元(tokens)

方法:

基于词典、基于统计模型、工具库( Jieba、THULAC、HanLP、LTP、PKU分词器)、深度学习


答案:AB

解释:

A很容易理解。

B里指的是词典中存在重叠词,比如:

"直" 是副词(AD)

"直达" 是动词(VV)

当遇到"直达"时,系统可能在"直"和"直达"之间产生歧义:

切成 ["直", "达"] 还是 ["直达"]?

这就是典型的切分歧义(ambiguity in segmentation),尤其是在最大匹配法中容易出现。

D错误。

分词结果高度依赖词典规模:

词典越大,覆盖的词汇越多,越不容易漏掉词语;

词典小 → 容易将真实词切错(如"中国银行"变成"中国"+"银行"没问题,但如果词典没有"中国银行",可能切错);

词典过大 → 可能引入噪声或歧义(如上面提到的"直" vs "直达")。

所以,分词结果与词典规模密切相关。

4.基于HMM的分词方法

(1)两个核心部分:

1)观测序列(Observation):输入的汉字序列(如 "我爱自然语言处理")

2)隐状态序列(Hidden States):每个字对应的分词标签(通常采用 BIES 标注体系)

BIES 标签说明:

B : Begin,词的开始

I :Inside,词的中间

E : End,词的结束

S : Single,单字成词

例子:

句子:"我爱自然语言处理"

正确标签:S S B E B E B E

(2)通过以下概率进行推断:

1)初始状态概率 :句子开头是 B/I/E/S 的概率

2)状态转移概率 :标签之间的转移概率,如 P(E → B)、P(B → I) 等

3)观测发射概率:某个标签下生成某个字的概率,如 P("自" | B),由隐状态B生成汉字 自 的概率。

多选题,加深理解:


答案:BDF

解释:

B错误:

在 BIES 中,B 只能接 M 或 E,不能接另一个 B。

因为一旦一个词开始(B),它必须继续为 M 或结束为 E。

E错误:

因为 E 表示一个词的结尾,下一个字必须是新词的开始(B)或单字(S),不能是另一个词的结尾(E)。

F错误:

因为 M 是词的中间,只能出现在一个多字词的中间。

但 M 前面必须是 B 或 M,后面是 M 或 E。

不能直接从 E → M,因为 E 是词的结尾,下一个字要么是 B(新词开始),要么是 S(单字词)。

所以 E → M 是非法的。

相关推荐
upper20203 小时前
数据挖掘07
人工智能·数据挖掘
从负无穷开始的三次元代码生活3 小时前
深度学习知识点概念速通——人工智能专业考试基础知识点
人工智能·深度学习
upper20203 小时前
数据挖掘06
人工智能·数据挖掘
码农小白猿3 小时前
农产品溯源新风潮:IACheck如何精准校验区块链记录与物流数据一致性
人工智能·ai·iacheck
爱笑的眼睛113 小时前
深入 Django 表单 API:从数据流到高级定制
java·人工智能·python·ai
搬砖的kk3 小时前
AMLA:以加代乘,解锁昇腾 MLA 算子高性能新范式
人工智能
upper20203 小时前
数据挖掘05
人工智能·数据挖掘
San30.3 小时前
从 0 到 1 打造 AI 冰球运动员:Coze 工作流与 Vue3 的深度实战
前端·vue.js·人工智能
爱好读书4 小时前
AI生成流程图
人工智能·流程图