NLP数据集的标注0.1.000
-
- [命名实体识别(Named Entity Recognition,简称NER)](#命名实体识别(Named Entity Recognition,简称NER))
- [关系抽取(Relation Extraction,简称RE)](#关系抽取(Relation Extraction,简称RE))
- 事件抽取 (Event Extraction, 简称EE)
- 评价观点抽取
- 参考链接
命名实体识别(Named Entity Recognition,简称NER)
抽取的类别没有限制,用户可以自己定义,如时间、地点、任务名称、人物名称、型号、大小等等,结构可以是
schema = [
'时间',
'选手',
'赛事名称',
'得分'
]
关系抽取(Relation Extraction,简称RE)
首先要识别实体,然后抽取实体之间的关系,即抽取三元组(实体一,关系类型,实体二),结构可以是
schema = {
'作品名': [
'歌手',
'发行时间',
'所属专辑'
]
}
事件抽取 (Event Extraction, 简称EE)
首先确定事件,然后确定事件论元,最后确定事件的属性如:
地震事件,即地震触发词,事件论元可以是发生时间、发生地点、地震等级等,结构可以是
schema = {
'地震触发词': [
'时间',
'震级'
]
}
评价观点抽取
可以从维度,和观点词入手,如
环境不错,老板人好的评价中,环境和老板是维度,不错和好是观点
参考链接
https://github.com/PaddlePaddle/PaddleNLP/blob/develop/model_zoo/uie/doccano.md#数据转换