[实体关系抽取|顶会论文]Does it Really Generalize Well on Unseen Data_ 它真的能很好地概括看不见的数据吗_关联三重提取方法的系统评价

Does it Really Generalize Well on Unseen Data? Systematic Evaluation of Relational Triple Extraction Methods

三星研究院 | ACL 2022 | 原文链接

它真的能很好地概括看不见的数据吗?关联三重提取方法的系统评价

BackGround

对于过去的三元组抽取的模型中,大多针对于NYT\WebNLG两个数据集进行训练并验证,但是经过研究发现,对于在训练中从未遇见过的三元组中,不能有效的推广不可见的三元组,作者通过重新排列数据、筛选训练实习、增加训练试题来强调看不见的数据,并由此提出一种简单有效的技术进行解决泛化的问题。

在这篇文章中,三元组的类型被分为了3个类型:

  • 完全可见(在各自数据集中与三元组完全重叠)
  • 不完全可见(部分重叠)
  • 不可见(全新)

过去模型的泛化性能评估

如上图,数据集中的部分可见不可见的三元组的比例非常小,以至于多样性不够,由此导致泛化性能评估不可靠。提出三种策略增加部分可见和不可见的三元组比例。

重新排列

反复选择一个三元组,并将包含该三元组的每个实例分发到测试集,使他们在数据集中不可见,为了得到冗余最小化,选择一个出现次数较少的三元组。

重叠筛选

从测试集中删除包含该三元组的实力,从测试集中随机选择k%的唯一三元组,从训练集中删除所有包含所选三元组的实力,构建一个重叠筛选数据。

扩充数据集

构架了一个增强测试集合,使用mask语言模型,用可代替的词语替换每个三元组中定义的实体。

增强方式:实体噪声

使用完全随机的噪声词替换给定输入句中的实体。首先对每个实体w采样一个随机噪声词w',对w'的token进行采样,引入+-1扰动,防止模型记住令牌的数量,

与过去的方式不同,实体噪声使用完全随机的噪声词替换实体,这个特性允许模型利用不可知的信息,因此模型可以通过上下文信息,而不是实体本身来学习从句子中提取三元组。

实验

上表表示了RTE方法再重组数据集和原始数据集上缺乏泛化能力,实体噪声提高了对不可见三元组的繁华能力,对于部分可见的三元组,没有损害泛化能力。

总结

在这篇文章中,揭露了当前主流模型的对于未曾训练过的数据集的泛化能力不强,作者使用实体噪声方式,强化了模型对于未见数据的泛化能力,同时也保持了对于训练中出现过的三元组识别的泛化能力。所以,对于以后得模型训练可以多多考虑对于泛化能力的提升,或者使用作者提供的数据集进行训练,然后性能再对其他的模型在这个数据集上进行比较,对其他的模型造成降维打击。

相关推荐
黑衣骑士兴4 小时前
llamafactory 安装和使用
nlp
feasibility.5 天前
多模态模型Qwen3-VL在Llama-Factory中断LoRA微调训练+测试+导出+部署全流程--以具身智能数据集open-eqa为例
人工智能·python·大模型·nlp·llama·多模态·具身智能
aiguangyuan5 天前
使用PyTorch和Hugging Face Transformers构建GPT教学演示:从基础原理到实践应用
人工智能·python·nlp
玄同7656 天前
LangChain v1.0+ Prompt 模板完全指南:构建精准可控的大模型交互
人工智能·语言模型·自然语言处理·langchain·nlp·交互·知识图谱
名为沙丁鱼的猫7297 天前
【MCP 协议层(Protocol layer)详解】:深入分析MCP Python SDK中协议层的实现机制
人工智能·深度学习·神经网络·机器学习·自然语言处理·nlp
桂花很香,旭很美7 天前
基于 MCP 的 LLM Agent 实战:架构设计与工具编排
人工智能·nlp
aoqDrPjNRbKr7 天前
PMSM永磁同步电机无传感器仿真 simulink仿真 SMO滑模观测器 PLL锁相环 无速度...
nlp
玄同7658 天前
告别 AgentExecutor:LangChain v1.0+ Agent 模块深度迁移指南与实战全解析
人工智能·语言模型·自然语言处理·langchain·nlp·agent·智能体
童话名剑8 天前
自然语言处理(吴恩达深度学习笔记)
人工智能·深度学习·机器学习·自然语言处理·nlp·词嵌入
阿龙AI日记9 天前
快速学会BERT模型!
深度学习·自然语言处理·nlp·bert