昇思25天学习打卡营第23天|LSTM+CRF序列标注

LSTM+CRF序列标注学习总结

概述

序列标注是为输入序列中的每个Token分配标签的过程,广泛应用于信息抽取任务。这些任务包括分词、词性标注和命名实体识别(NER)。例如,在NER中,输入序列可能是"清华大学在北京",输出序列为标签,其中"清华大学"与"北京"都是地名。

使用的标注方法通常为"BIOE"标注法:

  • B:实体的开始
  • I:实体的内部部分
  • O:非实体

例如:

输入序列
输出标注 B I I I O B I

条件随机场 (CRF)

在序列标注中,除了对每个Token进行独立的分类预测,还需要考虑相邻Token之间的依赖关系。条件随机场(CRF)作为一种有效的概率图模型,能够处理这种依赖性。

CRF的工作原理

  • 输入:给定一个输入序列 ( x = {x_0, x_1, ..., x_n} ) 和对应的标签序列 ( y = {y_0, y_1, ..., y_n} )。
  • 概率计算 :输出序列的概率通过发射概率和转移概率两部分进行计算:
    • 发射概率 ( \psi_{\text{EMIT}} ):表示每个Token映射到标签的可能性。
    • 转移概率 ( \psi_{\text{TRANS}} ):表示标签之间的转换概率。

结合上述概率可以得到:
Score ( x , y ) = ∑ i log ⁡ ψ EMIT ( x i → y i ) + log ⁡ ψ TRANS ( y i − 1 → y i ) \text{Score}(x, y) = \sum_i \log \psi_{\text{EMIT}}(x_i \rightarrow y_i) + \log \psi_{\text{TRANS}}(y_{i-1} \rightarrow y_i) Score(x,y)=i∑logψEMIT(xi→yi)+logψTRANS(yi−1→yi)

参数化形式

CRF的输出概率通过以下公式计算:
KaTeX parse error: Expected 'EOF', got '}' at position 88: ...Score}(x, y')}}}̲

该公式的目标是最大化正确标签序列的概率,同时最小化错误标签序列的概率。损失函数选择负对数似然(NLL):
Loss = − log ⁡ ( P ( y ∣ x ) ) \text{Loss} = -\log(P(y|x)) Loss=−log(P(y∣x))

计算得分与Normalizer

  1. 得分计算:根据公式计算正确标签序列的得分,同时维护转移概率矩阵和开始、结束标签的概率。
  2. Normalizer计算:使用动态规划计算所有可能输出序列的得分,以提高效率,避免穷举法带来的高计算成本。

Viterbi算法

在解码阶段,使用Viterbi算法寻找最优的标签路径。动态规划方法记录每个Token的最佳标签,并通过回溯获得最终的预测序列。

CRF层构建

将前向训练逻辑和解码逻辑整合成CRF层,考虑到输入序列的真实长度,确保处理填充问题。输入参数包括发射概率矩阵、转移概率矩阵和序列长度。

BiLSTM+CRF模型

设计一个结合双向LSTM与CRF的模型架构来进行命名实体识别任务。模型流程如下:

  • 嵌入层:将输入Token转化为向量表示。
  • LSTM层:提取序列特征,双向LSTM能够捕获前后文信息。
  • 全连接层:生成发射概率矩阵。
  • CRF层:对发射概率进行标注,考虑Token间的依赖关系。

训练过程

  1. 数据准备:生成示例数据并构造词表和标签表。
  2. 模型实例化:选择优化器并将模型与优化器结合。
  3. Batch处理:将生成的数据打包为Batch,处理填充后进行模型训练。
  4. 可视化训练进程:使用工具监控训练过程,观察模型效果。

训练效果分析

在完成500个训练步骤后,利用模型预测可能的路径得分和候选序列。通过后处理函数对预测得分进行处理,最终将预测的索引序列转换为标签序列,打印输出结果以查看模型性能。

通过这些步骤,LSTM+CRF模型能够有效地进行序列标注,应用于多种文本处理任务,如命名实体识别、信息抽取等。

相关推荐
2601_9619633817 分钟前
技术解剖:哈希值、区块链与CA认证如何守护电子合同安全?
网络·人工智能·安全·区块链·智能合约·政务
2601_9619633819 分钟前
从“电子化”到“自动化”:2026年智能合约与电子合同融合的技术逻辑与法律适配
网络·人工智能·区块链·智能合约·政务
米小虾30 分钟前
AI Skills 工程化:当每个开发者都有一支「AI 小队」,你该怎么管理?
人工智能
DisonTangor39 分钟前
谷歌开源首个扩散大语言模型——DiffusionGemma
人工智能·语言模型·自然语言处理·开源·aigc·transformer
冬奇Lab43 分钟前
每日一个开源项目(第129篇):OpenMed - 永不离开设备的医疗 NLP
人工智能·开源·资讯
冬奇Lab1 小时前
Agent 系列(19):Harness 完整体系——8 层防护框架全景
人工智能·llm·agent
米小虾1 小时前
Claude Fable 5 系统提示词被扒出来了:1586 行代码背后,藏着 AI 产品工程的终极哲学
人工智能·agent
云烟成雨TD1 小时前
Spring AI Alibaba 1.x 系列【77】执行取消
java·人工智能·spring
Teacher.chenchong1 小时前
AI-Agent2.0 科研全链路实战营:LLM+NotebookLM + 自动化编程 + 文献管理 + 论文写作,搭建本地科研智能体
人工智能·自动化
YM52e1 小时前
男孩子在外自我保护指南——用鸿蒙 ArkTS 构建交互式安全教育应用
学习·安全·华为·harmonyos·鸿蒙·鸿蒙系统