昇思25天学习打卡营第23天|LSTM+CRF序列标注

1. 序列标注简介

序列标注是自然语言处理中的一项任务,它涉及到对输入序列中的每个元素(Token)进行分类标注。常见的序列标注任务包括分词、词性标注和命名实体识别(NER)。例如,在NER中,模型需要识别文本中的地名、人名等实体。

2. 条件随机场(CRF)

CRF是一种用于序列标注的概率图模型。与简单的多分类问题不同,CRF能够捕捉序列中Token之间的依赖关系。例如,在NER中,如果一个词被标记为实体的一部分(I标签),那么它的前一个词应该是实体的开始(B标签)或也是实体的一部分(I标签)。

CRF的关键概念包括:
  • 发射概率:表示给定Token的条件下,它被分配某个标签的概率。
  • 转移概率:表示从一个标签转移到另一个标签的概率。
  • 线性链CRF:一种特殊类型的CRF,它考虑了序列中相邻Token之间的转移。

3. CRF的数学定义

CRF通过以下公式定义序列y在给定输入序列x下的概率:

P(y\|x) = \\frac{\\exp(\\text{Score}(x,y))}{\\sum_{y' \\in Y} \\exp(\\text{Score}(x,y'))}

其中,Score函数计算序列x和y的得分,包括发射概率和转移概率的贡献。

4. CRF层的实现

教程提供了使用MindSpore框架实现CRF层的代码,包括:

  • Score计算:根据发射概率和转移概率计算序列得分。
  • Normalizer计算:使用动态规划算法计算所有可能序列得分的对数指数和,以提高效率。
  • Viterbi算法:一种动态规划算法,用于在解码阶段找到最优的标签序列。

5. BiLSTM+CRF模型

该模型结合了双向长短期记忆网络(BiLSTM)和CRF。BiLSTM用于提取序列特征,而CRF用于序列标注。模型结构如下:

  • Embedding层:将词转换为词向量。
  • LSTM层:双向LSTM网络,提取序列特征。
  • Dense层:将LSTM的输出转换为发射概率矩阵。
  • CRF层:进行序列标注的最终预测。

6. 训练和预测

教程还介绍了如何准备数据、实例化模型、选择优化器、训练模型以及使用模型进行预测。包括:

  • 数据准备:创建词汇表和标签表,将文本序列转换为模型可接受的格式。
  • 模型训练:使用SGD优化器进行训练,并通过tqdm库可视化训练过程。
  • 预测和解码:使用模型进行预测,并通过Viterbi算法找到最优的标签序列。

7. 结果展示

最后,教程展示了如何将模型预测的标签索引转换回实际的标签,并打印输出结果,以验证模型的效果。

LSTM+CRF序列标注

相关推荐
ACP广源盛139246256733 分钟前
GSV2231 三屏显示扩展芯片@ACP#RTX Spark AI 终端多屏协作专属解决方案
大数据·人工智能·分布式·信息可视化·spark·电脑·音视频
xian_wwq3 分钟前
【学习笔记】「大模型安全:攻击面演化史」第 06 篇-红队方法论
笔记·学习·ai安全
碳基硅坊5 分钟前
在Mac上跑26B大模型:M4 Max + MLX量化推理实测
人工智能·模型部署·gemma-4-26b-a4b
wu_ye_m7 分钟前
学习c语言第34天 用函数每次输出+1,链式访问,int和void
c语言·学习·算法
MartinYeung510 分钟前
[论文学习]LLM 遗忘机制对真实世界扰动资料的稳健性研究
学习
无忧智库10 分钟前
破局“数据孤岛”与“面子工程”:万字深度解构新型智慧城市“云数智”融合的底层逻辑与实战路径(PPT)
大数据·人工智能·智慧城市
aneasystone本尊12 分钟前
让小龙虾给 Claude Code 派活:学习 OpenClaw 的 ACP 工具
人工智能
带娃的IT创业者14 分钟前
AI Slop 正在吞噬互联网:当生成式泛滥成为技术社区的隐形杀手
人工智能·大模型·生成式ai·内容质量·ai slop·技术社区
凉、介14 分钟前
深入理解 ARMv8-A|Application Binary Interface (ABI)
c语言·笔记·学习·嵌入式·arm
qingyulee15 分钟前
深度学习——神经网络基础
人工智能·深度学习·神经网络