【传知代码】受限前缀注意机制的事件关系识别(论文复现)

在自然语言处理的前沿,受限前缀注意机制正逐渐成为事件关系识别领域的关键技术。随着文本数据的不断增长和复杂性的提升,识别文本中事件之间的关系变得愈发重要和具有挑战性。受限前缀注意机制作为一种新兴的技术手段,通过有效地捕获文本中的关联信息,提升了事件关系识别的精度和效率。本文将探讨受限前缀注意机制的基本原理、应用实例以及在事件关系识别中的实际应用,帮助读者深入理解这一创新技术的价值和潜力。

本文所涉及所有资源均在传知代码平台可获取

目录

概述

核心逻辑

项目部署

写在最后


概述

事件关系识别(Event Relation Identification,ERI)旨在挖掘事件句子中表达的事件间依赖关系。此任务的主要挑战在于识别那些没有明确指示关系的上下文词汇的隐含线索。当训练样本不足时,主流技术难以有效捕捉事件之间的微妙关系,因为神经网络的参数不能得到充分拟合。尽管有越来越多的方法尝试使用提示学习(prompt learning)来缓解这一问题,但现有方法在提示和提示调优过程中缺乏优化,导致共现干扰和提示歧义。为此,本文提出了一种受限前缀注意机制(Constrained Prefix ATTention,CPATT),并将其整合到传统的提示调优过程中。通过这种方式,将上下文语义特征整合到动态提示中,以减轻共现干扰。此外,CPATT通过将类别之间的互斥性引入损失函数来监督提示的指导效果。基于两个广泛使用的数据集的实验结果表明,在句内和句间事件关系识别任务中均优于所有最先进的基线,包括GPT-3.5-turbo,本文在原来代码的基础上添加了Bart模型"Bart-base",不用访问外网就可以。

通过将ERI任务转换为自然语言生成任务,使用生成性预训练语言模型(PLM)来解决该任务。提示学习框架的架构如图所示,包含三个主要模块:模板创建模块(2.1)、提示调优模块(2.2)和关系推理模块(2.3)。基于此框架,我们在提示调优模块中整合了受限前缀注意机制(CPATT)。

如图所示,CPATT机制将类别独有的偏置分配为不同前缀的相对位置,并在生成过程中增强正确前缀的作用:

核心逻辑

为了显式获得关系线索,生成模板应将关系特定的词汇放置在事件之间。对于图3中的例子,事件关系三元组(点燃,火灾,因果关系)被转换为一句话"点燃是火灾的原因",这明显指示了点燃和火灾之间的因果关系。形式化地定义模板和相应的填空规则如下:

𝑇+ 𝑒𝑖,𝑒𝑗 = (𝑒𝑖)是(𝑒𝑗)的原因;𝑇− 𝑒𝑖,𝑒𝑗 = (𝑒𝑖)与(𝑒𝑗)无关

其中,𝑒𝑖和𝑒𝑗分别表示两个输入事件。注意,我们使用上标"+"和"-"来区分因果相关和不相关的事件,在此模块中,使用生成性预训练语言模型BART-base通过合成样本(𝐼𝑛𝑝𝑢𝑡, 𝑂𝑢𝑡𝑝𝑢𝑡)进行微调。BART-base符合Transformer结构,利用自注意机制增强上下文意识,并应用交叉注意机制连接编码器和解码器层。为了捕捉上下文语义特征,设计了一种前缀偏置的全连接注意机制,该机制将类别敏感的注意偏置作为相对位置表示融入编码器的自注意机制中。此外,还考虑了前缀对生成文本的指导效果,并采用对比损失函数来提高前缀的正确指导性。方法的关键在于融合上下文特征以生成动态提示。将𝐼𝑛𝑝𝑢𝑡输入到编码器层,以获得隐藏表示𝑯𝑒𝑛𝑐。在BART-base中,注意头的数量为12,隐藏层维度为768。特别地,用前缀偏置的全连接注意机制升级了自注意机制。注意机制遵循传统的查询-键-值注意机制。对于每个输入词𝑥,使用𝑾𝑸,𝑾𝑲,𝑾𝑽产生其查询、键和值。在计算前缀与事件上下文之间的相似性时,引入了可训练的注意偏置𝜷𝒌,将上下文特征融合到前缀表示中。

在推理阶段,引入模板解析算法来累积揭示最终结果的关系特定分数。具体地,给定一个候选事件对(𝑒𝑖, 𝑒𝑗)及其对应的句子(𝑠𝑖, 𝑠𝑗),我们首先根据公式(8)构建𝐼𝑛𝑝𝑢𝑡。其次,生成两句关系特定的句子𝑇+ 𝑒𝑖,𝑒𝑗 和𝑇− 𝑒𝑖,𝑒𝑗 ,分别表示因果关系和无关关系的目标序列。最后一步,将它们输入训练好的BART,并通过选择不同关系的最大分数来确定是否存在因果关系,作者的方法可以无缝适应多种事件关系识别任务,只需设计简单而有效的模板。通过引入类别敏感的前缀及其偏置,可以有效处理多事件关系识别任务。最终,我们可以将每个特定事件关系𝑟替换到公式(20)中,并将具有最大分数的视为最终结果。

项目部署

配置环境如下所示:

requirments

attrdict==2.0.1

PyYAML==6.0pi

transformers==4.29.0

numpy

pandas

scikit_learn

torch

tqdm

训练,train.py

推理, inference.py

核心代码如下:

python 复制代码
def predict_relation(input_TXT, event1, event2):  # 预测一个句子中两个事件的关系
    input_TXT = [input_TXT]*2
    input_ids = tokenizer(input_TXT, return_tensors='pt')['input_ids']
    model.to(device)
    
    relation_dict = {0: 'Cause-Effect', 1: 'NONE'}
    temp_list = []
    
    temp_list.append(event1+"is the cause of "+event2)
    temp_list.append(event1+"has no relation to "+event2)
    output_ids = tokenizer(temp_list, return_tensors='pt',
                           padding=True, truncation=True)['input_ids']
    # 加一个unused字符
    output_ids[:, 0] = 2
    output_length_list = [0]*2

    base_length = ((tokenizer(temp_list[0], return_tensors='pt', padding=True, truncation=True)[
                   'input_ids']).shape)[1]-2

    output_length_list[0:1] = [base_length]*2

    score = [1]*2
    with torch.no_grad():
        
        outputs = model(input_ids=input_ids.to(device), decoder_input_ids=output_ids[:, :output_ids.shape[1] - 2].to(device))
        output = outputs[0]
        # print(tokenizer.decode(output_ids[1, :output_ids.shape[1] - 2]))
        for i in range(output_ids.shape[1] - 3):
        # output = model(input_ids=input_ids.to(device), decoder_input_ids=output_ids.to(device))[0]

            logits = output[:, i, :]
            logits = logits.softmax(dim=1)
            logits = logits.to('cpu').numpy()
            # for j in range(0, 2):
            #     if int(output_ids[j][i + 1]) not in [16, 34, 5, 117, 1303, 9355, 9, 7]:
            #         weight = 1
            #     else:
            #         weight = 1.5
            #     if i < output_length_list[j]:
            #         score[j] = score[j] * (logits[j][int(output_ids[j][i + 1])] ** weight)
            for j in range(0, 2):
                if i < output_length_list[j]:
                    score[j] = score[j] * logits[j][int(output_ids[j][i + 1])]  
    # print(temp_list[0],score[0])
    # print(temp_list[1],score[1])
    # print(relation_dict[(score.index(max(score)))])

    return relation_dict[(score.index(max(score)))]

写在最后

本文深入探讨了受限前缀注意机制在事件关系识别中的重要性和应用。通过介绍其基本原理和在处理复杂文本数据中的优势,我们可以看到这一技术在提升识别精度和效率方面的潜力。受限前缀注意机制不仅能够有效捕捉文本中的关联信息,还能帮助系统更好地理解事件之间的复杂关系,为自然语言处理领域的研究和应用带来新的视角和方法。未来,随着技术的进一步演进和应用场景的拓展,受限前缀注意机制有望成为事件关系识别的重要技术支持,为解决现实世界中复杂的语境和关系提供更为精确和智能的解决方案。

详细复现过程的项目源码、数据和预训练好的模型可从该文章下方附件获取

相关推荐
bastgia43 分钟前
Tokenformer: 下一代Transformer架构
人工智能·机器学习·llm
菜狗woc1 小时前
opencv-python的简单练习
人工智能·python·opencv
15年网络推广青哥1 小时前
国际抖音TikTok矩阵运营的关键要素有哪些?
大数据·人工智能·矩阵
weixin_387545641 小时前
探索 AnythingLLM:借助开源 AI 打造私有化智能知识库
人工智能
engchina2 小时前
如何在 Python 中忽略烦人的警告?
开发语言·人工智能·python
paixiaoxin3 小时前
CV-OCR经典论文解读|An Empirical Study of Scaling Law for OCR/OCR 缩放定律的实证研究
人工智能·深度学习·机器学习·生成对抗网络·计算机视觉·ocr·.net
星河梦瑾3 小时前
SpringBoot相关漏洞学习资料
java·经验分享·spring boot·安全
OpenCSG3 小时前
CSGHub开源版本v1.2.0更新
人工智能
weixin_515202493 小时前
第R3周:RNN-心脏病预测
人工智能·rnn·深度学习
Altair澳汰尔3 小时前
数据分析和AI丨知识图谱,AI革命中数据集成和模型构建的关键推动者
人工智能·算法·机器学习·数据分析·知识图谱