UIE 指代消解(Coreference Resolution)实施步骤
指代消解本质上是识别文本中的实体 (Entity/Mention)并将相互指代 的实体连接起来(关系 )。因此,在 Doccano 中,最适合的项目类型是 关系抽取 (Relation Extraction) 。
我的教程:数据标注平台doccano的安装教程
参考官方教程:Paddlenlp-Doccano
思路来源:关于UIE信息抽取,你遇到了什么难题、还有哪些需求?欢迎反馈。也欢迎分享实践经验!
模型链接:ERNIE-UIE

步骤一:创建项目(关系抽取)
在 Doccano 界面中,点击 "Create Project" 。创建项目时选择序列标注任务,并勾选Allow overlapping entity 及Use relation Labeling 。适配命名实体识别、关系抽取、事件抽取等任务。


步骤二:定义实体标签和关系标签
定义标签之前先导入数据,示例数据如下:



指代消解需要两种标签:用于标记实体的实体标签 (Entity Labels) 和用于连接指代关系的关系标签 (Relation Labels)。
1. 定义实体标签 (Entity Labels)
这些标签用于框选文本中所有需要被消解的指称项(mentions),例如人物、组织、地点等。
- 点击左侧菜单的 "Labels"。
- 选择 "Span" 标签页。
- 建议标签:
PERSON(人物)ORG(组织/机构)LOC(地点)- 或者 最简化的:
MENTION(指称项)

2. 定义关系标签 (Relation Labels)
这是指代消解的核心标签,用于连接指代双方。
- 选择 "Relation" 标签页。
- 核心标签:
COREF或Coreference(指代关系)
步骤三:数据标注流程
在 Doccano 的关系抽取项目中,标注员将执行两步操作:
- 实体标注:
- 在文本中,框选所有指称项(无论是代词、名词还是专有名词)。
- 为它们分配你定义的实体标签(如
PERSON或MENTION)。
- 关系标注:
- 在两个相互指代、具有相同实体标签的指称项之间创建一条线。
- 选择关系类型为
COREF。 - 标注约定: 建议总是从指代词 (例如"他"、"它")指向被指代的名词或专有名词(例如"张三"、"某部队"),以保持方向一致性,这有助于模型理解指代链。
但是我希望做隐性的指代消解,则不显式指定关系,仅仅对需要指代的实体打标签


步骤四:数据导出(为模型训练做准备)
完成足够的数据标注后,您需要将数据导出,以便在 Doccano 外部进行模型训练。
- 点击左侧菜单的 "Export"。
- 选择导出格式。对于关系抽取项目,通常选择
JSONL格式,因为它能完整保留实体和关系信息。


最后得到jsonl文件
