数据挖掘08

**

数据挖掘08------基于统计模型的序列数据挖掘

**

1.序列数据挖掘方法分类

(1)模式匹配

把未知量伸长或者缩短到参考模式的长度。

然后使用动态规划方法把被比较的数据扭曲或者弯折,时期特征与模型特征对齐。

比如:DTW

(2)统计学习方法

对时间序列结构建立统计模型

比如:HMM 、CRF

(3)神经网络

模拟大脑在处理时间序列信息和工作记忆时所依赖的核心原理

比如:RNN、 LSTM 、 Transformer

2.隐马尔可夫模型

(1)定义

**隐马尔可夫模型(Hidden Markov Model, HMM)**是一种经典的概率图模型,用于建模含有隐藏状态的时序随机过程。

(2)核心思想:看得见的输出,看不见的状态

(3)HMM 的关键假设是:

系统的真实状态(隐藏状态)无法直接观测,但每个状态会以一定概率生成一个可观测的输出(观测值)。

下一状态只依赖于当前状态。

(4)举个例子:"天气与冰淇淋"

隐藏状态(真实天气):晴天(Sunny)、雨天(Rainy)------你不知道每天具体是什么天气。

观测值(你能看到的):每天朋友吃 1、2 或 3 个冰淇淋。

问题:根据过去一周他吃的冰淇淋数量,推断最可能的天气序列。

这就是HMM模型要做的事。

(5)单选题


答案:A

3.知识抽取中的分词任务

将连续的字符序列切分成有意义的词语单元(tokens)

方法:

基于词典、基于统计模型、工具库( Jieba、THULAC、HanLP、LTP、PKU分词器)、深度学习


答案:AB

解释:

A很容易理解。

B里指的是词典中存在重叠词,比如:

"直" 是副词(AD)

"直达" 是动词(VV)

当遇到"直达"时,系统可能在"直"和"直达"之间产生歧义:

切成 ["直", "达"] 还是 ["直达"]?

这就是典型的切分歧义(ambiguity in segmentation),尤其是在最大匹配法中容易出现。

D错误。

分词结果高度依赖词典规模:

词典越大,覆盖的词汇越多,越不容易漏掉词语;

词典小 → 容易将真实词切错(如"中国银行"变成"中国"+"银行"没问题,但如果词典没有"中国银行",可能切错);

词典过大 → 可能引入噪声或歧义(如上面提到的"直" vs "直达")。

所以,分词结果与词典规模密切相关。

4.基于HMM的分词方法

(1)两个核心部分:

1)观测序列(Observation):输入的汉字序列(如 "我爱自然语言处理")

2)隐状态序列(Hidden States):每个字对应的分词标签(通常采用 BIES 标注体系)

BIES 标签说明:

B : Begin,词的开始

I :Inside,词的中间

E : End,词的结束

S : Single,单字成词

例子:

句子:"我爱自然语言处理"

正确标签:S S B E B E B E

(2)通过以下概率进行推断:

1)初始状态概率 :句子开头是 B/I/E/S 的概率

2)状态转移概率 :标签之间的转移概率,如 P(E → B)、P(B → I) 等

3)观测发射概率:某个标签下生成某个字的概率,如 P("自" | B),由隐状态B生成汉字 自 的概率。

多选题,加深理解:


答案:BDF

解释:

B错误:

在 BIES 中,B 只能接 M 或 E,不能接另一个 B。

因为一旦一个词开始(B),它必须继续为 M 或结束为 E。

E错误:

因为 E 表示一个词的结尾,下一个字必须是新词的开始(B)或单字(S),不能是另一个词的结尾(E)。

F错误:

因为 M 是词的中间,只能出现在一个多字词的中间。

但 M 前面必须是 B 或 M,后面是 M 或 E。

不能直接从 E → M,因为 E 是词的结尾,下一个字要么是 B(新词开始),要么是 S(单字词)。

所以 E → M 是非法的。

相关推荐
Yao.Li28 分钟前
PVN3D ORT CUDA Custom Ops 实现与联调记录
人工智能·3d·具身智能
诺伦31 分钟前
LocalClaw 在智能制造的新机会:6部门AI+电商政策下的工厂AI升级方案
人工智能·制造
小陈工2 小时前
Python Web开发入门(十七):Vue.js与Python后端集成——让前后端真正“握手言和“
开发语言·前端·javascript·数据库·vue.js·人工智能·python
墨染天姬7 小时前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
AI成长日志7 小时前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
2501_948114247 小时前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠7 小时前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
黎阳之光7 小时前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好7 小时前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型
2501_944934738 小时前
直播运营需要哪些数据分析能力?场观、停留、成交和投流怎么联动分析
数据挖掘·数据分析