【传知代码】受限前缀注意机制的事件关系识别(论文复现)

在自然语言处理的前沿,受限前缀注意机制正逐渐成为事件关系识别领域的关键技术。随着文本数据的不断增长和复杂性的提升,识别文本中事件之间的关系变得愈发重要和具有挑战性。受限前缀注意机制作为一种新兴的技术手段,通过有效地捕获文本中的关联信息,提升了事件关系识别的精度和效率。本文将探讨受限前缀注意机制的基本原理、应用实例以及在事件关系识别中的实际应用,帮助读者深入理解这一创新技术的价值和潜力。

本文所涉及所有资源均在传知代码平台可获取

目录

概述

核心逻辑

项目部署

写在最后


概述

事件关系识别(Event Relation Identification,ERI)旨在挖掘事件句子中表达的事件间依赖关系。此任务的主要挑战在于识别那些没有明确指示关系的上下文词汇的隐含线索。当训练样本不足时,主流技术难以有效捕捉事件之间的微妙关系,因为神经网络的参数不能得到充分拟合。尽管有越来越多的方法尝试使用提示学习(prompt learning)来缓解这一问题,但现有方法在提示和提示调优过程中缺乏优化,导致共现干扰和提示歧义。为此,本文提出了一种受限前缀注意机制(Constrained Prefix ATTention,CPATT),并将其整合到传统的提示调优过程中。通过这种方式,将上下文语义特征整合到动态提示中,以减轻共现干扰。此外,CPATT通过将类别之间的互斥性引入损失函数来监督提示的指导效果。基于两个广泛使用的数据集的实验结果表明,在句内和句间事件关系识别任务中均优于所有最先进的基线,包括GPT-3.5-turbo,本文在原来代码的基础上添加了Bart模型"Bart-base",不用访问外网就可以。

通过将ERI任务转换为自然语言生成任务,使用生成性预训练语言模型(PLM)来解决该任务。提示学习框架的架构如图所示,包含三个主要模块:模板创建模块(2.1)、提示调优模块(2.2)和关系推理模块(2.3)。基于此框架,我们在提示调优模块中整合了受限前缀注意机制(CPATT)。

如图所示,CPATT机制将类别独有的偏置分配为不同前缀的相对位置,并在生成过程中增强正确前缀的作用:

核心逻辑

为了显式获得关系线索,生成模板应将关系特定的词汇放置在事件之间。对于图3中的例子,事件关系三元组(点燃,火灾,因果关系)被转换为一句话"点燃是火灾的原因",这明显指示了点燃和火灾之间的因果关系。形式化地定义模板和相应的填空规则如下:

𝑇+ 𝑒𝑖,𝑒𝑗 = (𝑒𝑖)是(𝑒𝑗)的原因;𝑇− 𝑒𝑖,𝑒𝑗 = (𝑒𝑖)与(𝑒𝑗)无关

其中,𝑒𝑖和𝑒𝑗分别表示两个输入事件。注意,我们使用上标"+"和"-"来区分因果相关和不相关的事件,在此模块中,使用生成性预训练语言模型BART-base通过合成样本(𝐼𝑛𝑝𝑢𝑡, 𝑂𝑢𝑡𝑝𝑢𝑡)进行微调。BART-base符合Transformer结构,利用自注意机制增强上下文意识,并应用交叉注意机制连接编码器和解码器层。为了捕捉上下文语义特征,设计了一种前缀偏置的全连接注意机制,该机制将类别敏感的注意偏置作为相对位置表示融入编码器的自注意机制中。此外,还考虑了前缀对生成文本的指导效果,并采用对比损失函数来提高前缀的正确指导性。方法的关键在于融合上下文特征以生成动态提示。将𝐼𝑛𝑝𝑢𝑡输入到编码器层,以获得隐藏表示𝑯𝑒𝑛𝑐。在BART-base中,注意头的数量为12,隐藏层维度为768。特别地,用前缀偏置的全连接注意机制升级了自注意机制。注意机制遵循传统的查询-键-值注意机制。对于每个输入词𝑥,使用𝑾𝑸,𝑾𝑲,𝑾𝑽产生其查询、键和值。在计算前缀与事件上下文之间的相似性时,引入了可训练的注意偏置𝜷𝒌,将上下文特征融合到前缀表示中。

在推理阶段,引入模板解析算法来累积揭示最终结果的关系特定分数。具体地,给定一个候选事件对(𝑒𝑖, 𝑒𝑗)及其对应的句子(𝑠𝑖, 𝑠𝑗),我们首先根据公式(8)构建𝐼𝑛𝑝𝑢𝑡。其次,生成两句关系特定的句子𝑇+ 𝑒𝑖,𝑒𝑗 和𝑇− 𝑒𝑖,𝑒𝑗 ,分别表示因果关系和无关关系的目标序列。最后一步,将它们输入训练好的BART,并通过选择不同关系的最大分数来确定是否存在因果关系,作者的方法可以无缝适应多种事件关系识别任务,只需设计简单而有效的模板。通过引入类别敏感的前缀及其偏置,可以有效处理多事件关系识别任务。最终,我们可以将每个特定事件关系𝑟替换到公式(20)中,并将具有最大分数的视为最终结果。

项目部署

配置环境如下所示:

requirments

attrdict==2.0.1

PyYAML==6.0pi

transformers==4.29.0

numpy

pandas

scikit_learn

torch

tqdm

训练,train.py

推理, inference.py

核心代码如下:

python 复制代码
def predict_relation(input_TXT, event1, event2):  # 预测一个句子中两个事件的关系
    input_TXT = [input_TXT]*2
    input_ids = tokenizer(input_TXT, return_tensors='pt')['input_ids']
    model.to(device)
    
    relation_dict = {0: 'Cause-Effect', 1: 'NONE'}
    temp_list = []
    
    temp_list.append(event1+"is the cause of "+event2)
    temp_list.append(event1+"has no relation to "+event2)
    output_ids = tokenizer(temp_list, return_tensors='pt',
                           padding=True, truncation=True)['input_ids']
    # 加一个unused字符
    output_ids[:, 0] = 2
    output_length_list = [0]*2

    base_length = ((tokenizer(temp_list[0], return_tensors='pt', padding=True, truncation=True)[
                   'input_ids']).shape)[1]-2

    output_length_list[0:1] = [base_length]*2

    score = [1]*2
    with torch.no_grad():
        
        outputs = model(input_ids=input_ids.to(device), decoder_input_ids=output_ids[:, :output_ids.shape[1] - 2].to(device))
        output = outputs[0]
        # print(tokenizer.decode(output_ids[1, :output_ids.shape[1] - 2]))
        for i in range(output_ids.shape[1] - 3):
        # output = model(input_ids=input_ids.to(device), decoder_input_ids=output_ids.to(device))[0]

            logits = output[:, i, :]
            logits = logits.softmax(dim=1)
            logits = logits.to('cpu').numpy()
            # for j in range(0, 2):
            #     if int(output_ids[j][i + 1]) not in [16, 34, 5, 117, 1303, 9355, 9, 7]:
            #         weight = 1
            #     else:
            #         weight = 1.5
            #     if i < output_length_list[j]:
            #         score[j] = score[j] * (logits[j][int(output_ids[j][i + 1])] ** weight)
            for j in range(0, 2):
                if i < output_length_list[j]:
                    score[j] = score[j] * logits[j][int(output_ids[j][i + 1])]  
    # print(temp_list[0],score[0])
    # print(temp_list[1],score[1])
    # print(relation_dict[(score.index(max(score)))])

    return relation_dict[(score.index(max(score)))]

写在最后

本文深入探讨了受限前缀注意机制在事件关系识别中的重要性和应用。通过介绍其基本原理和在处理复杂文本数据中的优势,我们可以看到这一技术在提升识别精度和效率方面的潜力。受限前缀注意机制不仅能够有效捕捉文本中的关联信息,还能帮助系统更好地理解事件之间的复杂关系,为自然语言处理领域的研究和应用带来新的视角和方法。未来,随着技术的进一步演进和应用场景的拓展,受限前缀注意机制有望成为事件关系识别的重要技术支持,为解决现实世界中复杂的语境和关系提供更为精确和智能的解决方案。

详细复现过程的项目源码、数据和预训练好的模型可从该文章下方附件获取

相关推荐
DisonTangor9 分钟前
阿里通义千问开源Qwen2.5系列模型:Qwen2-VL-72B媲美GPT-4
人工智能·计算机视觉
豆浩宇9 分钟前
Halcon OCR检测 免训练版
c++·人工智能·opencv·算法·计算机视觉·ocr
LLSU1314 分钟前
聚星文社AI软件小说推文软件
人工智能
JackieZhengChina16 分钟前
吴泳铭:AI最大的想象力不在手机屏幕,而是改变物理世界
人工智能·智能手机
ShuQiHere18 分钟前
【ShuQiHere】 探索数据挖掘的世界:从概念到应用
人工智能·数据挖掘
嵌入式杂谈18 分钟前
OpenCV计算机视觉:探索图片处理的多种操作
人工智能·opencv·计算机视觉
时光追逐者19 分钟前
分享6个.NET开源的AI和LLM相关项目框架
人工智能·microsoft·ai·c#·.net·.netcore
东隆科技20 分钟前
PicoQuant公司:探索铜铟镓硒(CIGS)太阳能电池技术,引领绿色能源革新
人工智能·能源
DisonTangor31 分钟前
上海AI气象大模型提前6天预测“贝碧嘉”台风登陆浦东 今年已多次精准预测
人工智能
人工智能培训咨询叶梓1 小时前
生成式人工智能在无人机群中的应用、挑战和机遇
人工智能·语言模型·自然语言处理·aigc·无人机·多模态·生成式人工智能