UIE信息抽取模型指代消解实战教程(一)

UIE 指代消解(Coreference Resolution)实施步骤

指代消解本质上是识别文本中的实体 (Entity/Mention)并将相互指代 的实体连接起来(关系 )。因此,在 Doccano 中,最适合的项目类型是 关系抽取 (Relation Extraction)

我的教程:数据标注平台doccano的安装教程

参考官方教程:Paddlenlp-Doccano

思路来源:关于UIE信息抽取,你遇到了什么难题、还有哪些需求?欢迎反馈。也欢迎分享实践经验!

模型链接:ERNIE-UIE

步骤一:创建项目(关系抽取)

在 Doccano 界面中,点击 "Create Project" 。创建项目时选择序列标注任务,并勾选Allow overlapping entityUse relation Labeling 。适配命名实体识别、关系抽取、事件抽取等任务。

步骤二:定义实体标签和关系标签

定义标签之前先导入数据,示例数据如下:


指代消解需要两种标签:用于标记实体的实体标签 (Entity Labels) 和用于连接指代关系的关系标签 (Relation Labels)。

1. 定义实体标签 (Entity Labels)

这些标签用于框选文本中所有需要被消解的指称项(mentions),例如人物、组织、地点等。

  • 点击左侧菜单的 "Labels"
  • 选择 "Span" 标签页。
  • 建议标签:
    • PERSON (人物)
    • ORG (组织/机构)
    • LOC (地点)
    • 或者 最简化的:MENTION (指称项)
2. 定义关系标签 (Relation Labels)

这是指代消解的核心标签,用于连接指代双方。

  • 选择 "Relation" 标签页。
  • 核心标签:
    • COREFCoreference (指代关系)

步骤三:数据标注流程

在 Doccano 的关系抽取项目中,标注员将执行两步操作:

  1. 实体标注:
    • 在文本中,框选所有指称项(无论是代词、名词还是专有名词)。
    • 为它们分配你定义的实体标签(如 PERSONMENTION)。
  2. 关系标注:
    • 在两个相互指代、具有相同实体标签的指称项之间创建一条线。
    • 选择关系类型为 COREF
    • 标注约定: 建议总是从指代词 (例如"他"、"它")指向被指代的名词或专有名词(例如"张三"、"某部队"),以保持方向一致性,这有助于模型理解指代链。

但是我希望做隐性的指代消解,则不显式指定关系,仅仅对需要指代的实体打标签

步骤四:数据导出(为模型训练做准备)

完成足够的数据标注后,您需要将数据导出,以便在 Doccano 外部进行模型训练。

  1. 点击左侧菜单的 "Export"
  2. 选择导出格式。对于关系抽取项目,通常选择 JSONL 格式,因为它能完整保留实体和关系信息。


    最后得到jsonl文件
相关推荐
原野AI1 年前
Windows安装和使用Doccano标注工具
windows·语言模型·nlp·doccano·文本标注
weiambt2 年前
文本标注工具doccano 中上传dataset无法成功
doccano
会害羞的杨卓越2 年前
Doccano工具安装教程/文本标注工具/文本标注自己的项目/NLP分词器工具/自然语言处理必备工具/如何使用文本标注工具
自然语言处理·nlp·中文分词·doccano