论文阅读 -《N-ary Relation Extraction using Graph State LSTM》

摘要

问题定义:跨句n元关系提取是在多个句子中检测n个实体间关系的自然语言处理任务。

现有方法:现有方法通常将文本构建成文档图,包括句子内部和跨句子的依赖关系。

最先进方法:最先进方法将文档图分割为两个有向无环图,并为每个图采用DAG结构的LSTM模型,能够通过图的边来捕捉丰富的语言知识,但可能在分割过程中丢失信息。

提出的模型:提出了一个图状态LSTM模型,该模型为每个词使用并行状态,并通过消息传递来递归丰富状态值。

模型优势:与DAG LSTMs相比,图LSTM保持了图的原始结构,并通过增加并行化来提高计算速度。

实验结果:在标准基准测试中,所提出的模型取得了文献中的最佳性能。

1 引言

关系提取的重要性:关系提取是自然语言处理的一个核心任务,在多个领域都有应用。

现有工作:现有研究主要集中在句子内的关系提取。

跨句关系提取:跨句关系提取越来越受到关注,最近的研究扩展到n元关系提取。

图结构LSTM:Peng等人(2017)提出了图结构LSTM,通过构建图并利用句法和话语信息进行关系提取。

模型限制:双向DAG LSTM模型在转换图时可能会丢失信息,且未包括兄弟姐妹信息。

提出的解决方案:提出将图作为一个整体来建模,不拆分为DAGs,使用图卷积网络和图循环网络。

图LSTM的优势:提出的图LSTM保持了图的原始结构,可以整合更多信息,并且计算效率高。

实验结果 :图LSTM在准确性上超过了最先进方法,模型在准确性上比双向DAG LSTM基线高出5.9%,超过了Peng等人(2017)的最先进系统1.2%。代码可在 GitHub - freesunshine0316/nary-grn: Code regarding to our paper "N-ary Relation Extraction using Graph State LSTM"上获得。

贡献:比较了图LSTM和DAG LSTM,首次研究图循环网络在建模依赖和话语关系中的应用。

2 任务定义

输入表示:跨句n元关系提取的输入是一对(E; T),其中E = (e1; ... ; eN)是实体提及的集合,T = [S1; ... ; SM]是由多个句子组成的文本。

实体提及:集合E中的每个实体提及都属于文本T中的一个特定句子。

关系集合:预定义的关系集合R包含可能的关系以及表示没有关系的None。

任务类型:任务可以是二元分类,判断实体是否构成关系,或多类分类,确定实体间的具体关系。

示例说明:通过表1的例子,说明了二元分类任务和多类分类任务的不同目标,包括确定药物对某种癌症是否有效,以及识别药物效果的具体类型。

表1 一个示例,展示了带有EGFR基因L858E突变的肿瘤对吉非替尼治疗有反应。

3 基线:双向DAG LSTM

任务公式化:Peng等人(2017)将关系提取任务视为图结构问题,以整合丰富的句法和话语特征。

句法结构:使用斯坦福解析器为输入句子提供句法结构,并通过连接连续句子的头来表示话语信息。

图表示:输入图G由节点V(句子中的词)和边E(连接词的依赖或话语关系)组成。

边的表示:每条边是一个三元组,包含源词和目标词的索引以及边的类型或相对位置。

双向DAG LSTM:按照Peng等人(2017)的方法,将输入图分割为两个DAG,分别处理左到右和右到左的边。

DAG LSTM编码:使用DAG LSTM对每个DAG进行编码,输入包括词和边标签。

预测:使用逻辑回归分类器根据两个方向LSTM的实体隐藏状态进行预测,参数包括W_0​和b_0。

3.1 输入表示

节点和边标签对于建模句法图都很有用。作为我们DAG LSTM的输入,我们首先通过以下方式计算每条边(i; j; l)的表示:

其中W1和b1是模型参数,e_iei​是由索引i指示的源词的嵌入,e_lel​是边标签l的嵌入。

3.2 状态转换

基线LSTM模型按顺序学习DAG表示,遵循词序。以边的表示(如x_{i,j}^lxi,jl​)作为输入,在前向和后向DAG上执行门控状态转换操作。对于每个词j,其传入边E_{in}(j)Ein​(j)的表示被累加为一个向量:

(公式3)

同样,对于每个词j,所有传入节点的状态在传递给门控操作之前被累加为一个单一向量:(公式4)

最后,第j个词的隐藏状态h_jhj​的门控状态转换操作可以定义为: (公式5)

其中i_、o_j​和f_{i,j}​分别是一组输入、输出和遗忘门,而W_x, U_x, b_x(对于x∈{i,o,f,u})是模型参数。

3.3 与Peng等人(2017年)的比较

计算相似性:我们的基线模型在计算上与Peng等人(2017年)的工作相似。

边标签使用差异:在如何将边标签整合到门控网络中,两种方法存在差异。

Peng等人(2017年)的模型变体:他们提出了全参数化(FULL)和边类型嵌入(EMBED)两种变体。FULL为每种边类型分配不同的参数矩阵,而EMBED使用3D张量来处理边标签的嵌入。

我们的模型:我们将边标签作为输入的一部分,并将其嵌入向量与节点表示向量连接。

参数数量和过拟合:我们的方法相比FULL和EMBED需要更少的参数,因此在小规模数据集上更不容易出现过拟合问题。

模型选择:由于参数数量较少,我们的方法被选为基线,并且在第4节中,它也被用于我们的图状态LSTM模型。

4 图状态LSTM

输入图公式:模型的输入图公式遵循第3节的描述。

计算输入表示:模型使用与基线模型相同的方法来计算输入表示。

分类方法:模型执行分类的方法与基线模型相同。

图结构LSTM:与基线的双向DAG LSTM不同,模型使用图结构的LSTM来直接对输入图进行建模,无需分割。

模型概述:图2提供了模型的视觉概述。

状态向量定义:为图中的每个词定义了一个状态向量hj。

图状态:图的状态由所有词的状态组成,可以表示为状态向量的集合。

信息交换:模型通过递归状态转换过程在词之间交换信息,生成一系列图状态。

初始状态:初始图状态由一组初始词状态组成,初始状态向量h0是零向量。

4.1 状态转换

状态转换方法:使用循环神经网络模拟状态转换过程。

信息交换:在每一步允许词与其直接连接的词之间交换信息。

门控LSTM单元:采用门控LSTM单元来记录记忆并控制信息流。

输入定义:定义了词的输入,包括连接到该词的边的表示。

边的表示:边表示为三元组,包括源词、目标词和边标签。

输入和输出边:区分了词的传入和传出边,并分别计算它们的表示。

状态转换公式:给出了从g_{t-1}gt−1​到g_tgt​的状态转换的数学定义。

模型参数:列出了模型中使用的参数,包括权重矩阵、偏置项和门控操作。

图状态LSTM与双向DAG LSTM的对比

信息流对比:基线DAG LSTM的信息流遵循句子中的自然词序,而图状态LSTM允许每个词与所有图邻居同时交换信息。

全局上下文信息:图状态LSTM可以利用整体上下文信息提取特征,而DAG LSTM处理的是分离的双向信息流。

任意结构处理:图状态LSTM能够处理包括任意循环图在内的任意结构。

信息传播:从初始状态开始,每个词的信息在每个步骤后传播到其图邻居。

非邻近词信息交换:通过多个状态转换步骤实现非邻近词之间的信息交换。

转换步骤实验:实验不同数量的转换步骤,以研究全局编码的有效性。

并行化和效率:与DAG LSTM相比,图状态LSTM允许节点状态更新的并行化,使用GPU可以提高效率。

5 训练

损失函数:模型采用交叉熵损失函数进行训练。

输入和标签:X_iXi​代表输入图,y_iyi​代表对应的金标准类别标签。

模型参数:\thetaθ表示模型的参数。

优化器:使用Adam优化算法,设置学习率为0.001。

模型选择:选择在开发集上表现最好的模型来评估测试集。

正则化:训练时使用dropout正则化,比率为0.3。

硬件加速:训练和评估过程使用Tesla K20X GPU进行加速。

6 实验

对第2节中讨论的二元关系检测任务和多类关系提取任务进行了实验。

6.1 数据

数据集来源:使用的是Peng等人(2017年)的生物医学领域数据集。

关注点:专注于提取药物、基因和突变之间的三元关系。

数据集规模:包含6987个三元关系实例和6087个二元关系实例。

句子数量:大多数三元关系实例包含多个句子,平均约2个句子。

分类标签:数据集有五种分类标签,包括"耐药或无反应"、"敏感性"、"反应"、"耐药"和"无"。

标签处理:按照Peng等人(2017年)的方法,将多类标签转换为二元标签,将所有关系类别视为"Yes","无"关系视为"No"。

6.2 设置

  • 评估方法:采用五折交叉验证来评估模型性能。
  • 测试准确率:最终的测试准确率是通过对五个折的测试准确率取平均值得到的。
  • 开发集:每个折的训练集中随机划分出200个实例作为开发集。
  • 批量大小:所有实验的批量大小统一设置为8。
  • 词嵌入初始化:使用100维的GloVe词向量进行初始化,这些词向量是基于Wikipedia和网络文本的60亿词预训练得到的。
  • 边标签嵌入:边标签嵌入是3维的,并且通过随机方式初始化。
  • 词嵌更新:训练过程中不更新预训练的词嵌入。
  • 隐藏层维度:LSTM单元中隐藏向量的维度被设置为150。

6.3 开发实验

  • 开发实验目的:在药物-基因-突变三元关系数据集上分析模型性能。
  • 交叉验证:采用5折交叉验证的首折设置作为数据配置。
  • 状态转换次数:实验比较了不同状态转换次数对模型性能的影响。
  • 模型变体:比较了仅在前向或后向DAG上执行的模型(forward和backward),将两者隐藏状态连接的模型(concat),以及在原始图上执行的模型(all)。
  • 性能趋势:forward和backward的性能低于concat,而all的性能优于concat,表明同时考虑前后关系的优势。
  • 状态转换对性能的影响:增加状态转换步骤可以提高模型准确率,因为可以整合更大的上下文信息。
  • 状态转换次数的选择:在4次和5次状态转换后性能趋于稳定,因此后续实验将状态转换次数设定为5。

6.4 最终结果

  • 模型比较:将图状态LSTM模型与双向DAG基线和其他最新方法进行了比较。
  • 多任务学习:+multitask表示同时训练三元和二元关系的方法。
  • 基线性能:Bidir DAG LSTM作为基线,准确率低于EMBED和FULL,可能因为第3.3节中提到的差异。
  • 最终结果:尽管没有使用多任务学习,但最终结果优于Peng等人(2017年)。
  • 单句实例:报告了仅在单句实例上的准确率,所有系统在单句关系上的性能都有所下降。
  • 性能下降原因:单句可能无法提供足够的上下文进行消歧,需要研究跨句上下文;另外,由于单句实例较少,可能导致过拟合。
  • 过拟合证据:基线模型参数较少,性能下降最小,这可能是过拟合的一个证据。

6.5 分析

  • 效率:表4显示了基线模型和我们模型的训练和解码时间。图状态LSTM模型在训练和解码速度上显著优于基线模型。

表4 在药物-基因突变三元交叉句子设置中,训练一个周期和解码的平均时间(秒)在五个折上。

  • 句子长度对准确率的影响:图5(a)显示了不同句子长度上的测试准确率。随着句子长度的增加,两种模型的性能都有所提高,GS GLSTM在短句子上表现更好。
  • 最大邻居数量对准确率的影响:图5(b)显示了针对最大邻居数量的测试准确率。当图中节点的最大邻居数量增加时,两种模型的性能都有所提高,GS GLSTM在邻居较少的情况下表现更优。
  • 案例研究:图4使用两个示例展示了GS GLSTM相对于Bidir DAG LSTM的优势。通过两个具体案例展示了GS GLSTM在上下文信息利用上的优势,特别是在处理依赖树中的叶子节点和兄弟节点时。

图4 示例案例。带有下标1、2和3的词分别代表药物、基因和突变。两个案例的参考结果都是"否"。在这两种情况下,GS GLSTM都做出了正确的预测,而双向DAG LSTM则预测错误。

图5 测试集在(a)不同句子长度和(b)不同最大邻居数量上的性能表现。

6.6 在二元子关系上的结果

模型评估:作者的模型在药物-突变的二元关系抽取任务上进行了评估。表5显示了结果

现有模型比较:与Miwa和Bansal(2016)的模型相比,后者使用序列和树状结构LSTMs进行关系抽取,是当时的最先进模型。

模型性能:GS GLSTM模型在所有系统中表现最佳,表明其在编码输入图中的语言知识方面更为有效。

二元关系难度:二元关系抽取任务相对简单,因此GS GLSTM和Bidir DAG LSTM模型的性能有所提高或保持稳定。

模型比较:作者的双向DAG LSTM模型在整体性能上与FULL模型相当,且在某些情况下略优于FULL模型,特别是在FULL模型仅使用单句实例时。

表5 在二元药物-突变相互作用的五折交叉验证中的平均测试准确率。

6.7 细粒度分类

数据集构成:数据集包含五个类别,这一点在论文的早期部分已经提到。

研究范围扩展:与以往只关注二元关系检测的研究不同,作者还研究了多类分类任务,这可能对实际应用更有帮助。

任务难度:多类关系提取任务比二元关系提取更为复杂和模糊。表6显示了多类关系提取的准确性

性能比较:多类关系提取的准确性与二元关系提取相似,但GS GLSTM在多类分类任务中表现更佳。

模型优势:GS GLSTM在利用上下文信息方面显示出比Bidir DAG LSTM更明显的优势,这在多类分类任务中尤为突出。

表6 多类关系提取的平均测试准确率,使用所有实例("Cross")。

7 相关工作

N元关系抽取的历史:从MUC-7开始,主要关注实体-属性关系,也在生物医学领域有所研究。

跨句关系抽取的挑战:先前研究通常依赖共指注释或假设文档描述单一事件,这限制了对上下文表示的学习。

Quirk和Poon的工作:采用远程监督和多样化上下文证据,但不涉及N元关系。

图编码器的应用:Liang等人使用图LSTM进行语义对象解析,而Peng等人研究三元跨句关系。

图LSTM的特点:与Peng等人的工作不同,作者提出的图LSTM不需要图节点的排序,具有高度并行性。

图卷积网络和图递归网络:在NLP任务中用于建模图结构,如语义角色标注、机器翻译等。

GRN的优势:Zhang等人和Song等人展示了GRN在不同任务上的优势。

作者的工作:首次使用GRN来表示依赖和话语结构,并比较了GRN与DAG LSTM在关系提取任务中的性能。

未来工作:计划将GCN和GRN在该任务上进行比较。

8 结论

  1. 模型探索:研究了一种用于跨句N元关系抽取的图状态LSTM模型,该模型通过递归状态转换细化图状态表示。
  2. 模型优势
    • 不改变输入图结构,保留所有信息。
    • 在计算节点上下文向量时,能够整合兄弟节点信息。
    • 具有更好的并行性。
  3. 性能提升:实验结果显示,与包括双向图LSTM在内的先前模型相比,有显著的性能提升。
  4. 未来工作
    • 考虑添加指代信息,以帮助信息收集。
    • 探索包括词义信息的可能性,以解决由词义引起的混淆问题。
相关推荐
飞凌嵌入式3 分钟前
飞凌嵌入式T113-i开发板RISC-V核的实时应用方案
人工智能·嵌入式硬件·嵌入式·risc-v·飞凌嵌入式
sinovoip5 分钟前
Banana Pi BPI-CanMV-K230D-Zero 采用嘉楠科技 K230D RISC-V芯片设计
人工智能·科技·物联网·开源·risc-v
搏博27 分钟前
神经网络问题之一:梯度消失(Vanishing Gradient)
人工智能·机器学习
z千鑫27 分钟前
【人工智能】深入理解PyTorch:从0开始完整教程!全文注解
人工智能·pytorch·python·gpt·深度学习·ai编程
YRr YRr36 分钟前
深度学习:神经网络的搭建
人工智能·深度学习·神经网络
威桑38 分钟前
CMake + mingw + opencv
人工智能·opencv·计算机视觉
爱喝热水的呀哈喽42 分钟前
torch张量与函数表达式写法
人工智能·pytorch·深度学习
肥猪猪爸1 小时前
使用卡尔曼滤波器估计pybullet中的机器人位置
数据结构·人工智能·python·算法·机器人·卡尔曼滤波·pybullet
LZXCyrus2 小时前
【杂记】vLLM如何指定GPU单卡/多卡离线推理
人工智能·经验分享·python·深度学习·语言模型·llm·vllm
我感觉。2 小时前
【机器学习chp4】特征工程
人工智能·机器学习·主成分分析·特征工程