CoNLL-2012 数据格式是用于自然语言处理任务的一种常见格式,特别是在命名实体识别、词性标注、句法分析和语义角色标注等领域。这种格式在 CoNLL-2012 共享任务中被广泛使用,该任务主要集中在语义角色标注上。
CoNLL-2012 数据格式通常包括多列,每列包含不同类型的语言学信息。以下是一个典型的 CoNLL-2012 格式的例子,展示了它的列结构和类型:
bc/cnn/00/cnn_0000 0 0 而且 AD (TOP(IP(ADVP*) - - - Paula_Zahn_#1E * (ARGM-DIS*) * -
bc/cnn/00/cnn_0000 0 1 国防部长 NN (NP(NP*) - - - Paula_Zahn_#1E * (ARG0* * (195
bc/cnn/00/cnn_0000 0 2 唐纳德·拉姆斯菲尔 NR (NP*)) - - - Paula_Zahn_#1E (PERSON) *) * 195)
bc/cnn/00/cnn_0000 0 3 说 VV (VP* - 01 7 Paula_Zahn_#1E * (V*) * -
bc/cnn/00/cnn_0000 0 4 更 AD (IP(NP(DNP(QP(ADVP*) - - - Paula_Zahn_#1E * (ARG1* (ARG0* (247
bc/cnn/00/cnn_0000 0 5 多 CD (QP*)) - - 3 Paula_Zahn_#1E * * * -
bc/cnn/00/cnn_0000 0 6 的 DEG *) - - - Paula_Zahn_#1E * * * -
bc/cnn/00/cnn_0000 0 7 美国 NR (NP*) - - - Paula_Zahn_#1E (NORP) * * -
bc/cnn/00/cnn_0000 0 8 士兵 NN (NP*)) - - - Paula_Zahn_#1E * * *) 247)
bc/cnn/00/cnn_0000 0 9 可能 AD (VP(ADVP*) - - - Paula_Zahn_#1E * * (ARGM-ADV*) -
bc/cnn/00/cnn_0000 0 10 不久 AD (ADVP*) - - - Paula_Zahn_#1E * * (ARGM-TMP*) -
bc/cnn/00/cnn_0000 0 11 将 AD (ADVP*) - - - Paula_Zahn_#1E * * (ARGM-ADV*) -
bc/cnn/00/cnn_0000 0 12 启程 VV (VP(VP*) - - - Paula_Zahn_#1E * * * -
bc/cnn/00/cnn_0000 0 13 前往 VV (VP* - 01 - Paula_Zahn_#1E * * (V*) -
bc/cnn/00/cnn_0000 0 14 伊拉克 NR (NP*)))))) - - - Paula_Zahn_#1E (LOC) *) (ARG1*) -
bc/cnn/00/cnn_0000 0 15 . PU *)) - - - Paula_Zahn_#1E * * * -
bc/cnn/00/cnn_0000 0 0 他 PN (TOP(IP(NP*) - - - Paula_Zahn_#1E * (ARG0*) * * * * * (195)
bc/cnn/00/cnn_0000 0 1 说 VV (VP* - 01 7 Paula_Zahn_#1E * (V*) * * * * * -
bc/cnn/00/cnn_0000 0 2 将 AD (IP(VP(ADVP*) - - - Paula_Zahn_#1E * (ARG1* (ARGM-ADV*) * * * * -
bc/cnn/00/cnn_0000 0 3 暂时 AD (ADVP*) - - - Paula_Zahn_#1E * * (ARGM-ADV*) * * * * -
bc/cnn/00/cnn_0000 0 4 需要 VV (VP* - 02 1 Paula_Zahn_#1E * * (V*) * * * * -
bc/cnn/00/cnn_0000 0 5 他们 PN (IP(NP*) - - - Paula_Zahn_#1E * * (ARG1* (ARG0*) * * * (247)
bc/cnn/00/cnn_0000 0 6 来 MSP (VP* - - 7 Paula_Zahn_#1E * * * * * * * -
bc/cnn/00/cnn_0000 0 7 防止 VV (VP* - 01 - Paula_Zahn_#1E * * * (V*) * * * -
bc/cnn/00/cnn_0000 0 8 十二月份 NT (NP(LCP(NP(NP*) - - - Paula_Zahn_#1E (DATE) * * (ARG1* * * * -
bc/cnn/00/cnn_0000 0 9 伊拉克 NR (NP*) - - - Paula_Zahn_#1E (ORG* * * * * * * (206)
bc/cnn/00/cnn_0000 0 10 国会 NN (NP* - - - Paula_Zahn_#1E *) * * * * * * -
bc/cnn/00/cnn_0000 0 11 选举 NN *)) - - - Paula_Zahn_#1E * * * * * * * -
bc/cnn/00/cnn_0000 0 12 前 LC *) - - - Paula_Zahn_#1E * * * * * * * -
bc/cnn/00/cnn_0000 0 13 预料 VV (CP(CP(IP(VP* - 01 - Paula_Zahn_#1E * * * * (V*) * * -
bc/cnn/00/cnn_0000 0 14 会 VV (IP(VP* - 02 - Paula_Zahn_#1E * * * * (ARG1* (V*) * -
bc/cnn/00/cnn_0000 0 15 增长 VV (VP*))))) - 01 1 Paula_Zahn_#1E * * * * *) * (V*) -
bc/cnn/00/cnn_0000 0 16 的 DEC *)) - - - Paula_Zahn_#1E * * * * * * * -
bc/cnn/00/cnn_0000 0 17 叛乱 NN (NP* - - - Paula_Zahn_#1E * * * * * * * -
bc/cnn/00/cnn_0000 0 18 袭击 NN *))))))))) - - - Paula_Zahn_#1E * *) *) *) * * * -
bc/cnn/00/cnn_0000 0 19 . PU *)) - - - Paula_Zahn_#1E * * * * * * * -
每列的含义为:
第一列是文件名。
第二列是文档片段iid,大部分是0。
后面几列为:
- Word index: 句子中的词索引。
- Word form: 词的原形。
- Part-of-Speech tag: 词性标签。
- Parse tree: 句法分析树的部分信息。
- Predicate lemma: 如果当前词是谓词,则为谓词的原形;否则为一个连字符。
- Predicate Frameset ID: 如果当前词是谓词,则为框架ID;否则为一个连字符。
- Word sense: 词的语义编号,如果适用的话。
- Speaker/Author: 说话者或作者。
- Named Entities: 命名实体标记。
- Predicate Arguments: 与谓词相关的语义角色标注。
- Coreference: 共指解析标记。
其中,共指标记中,相同数字的表示同一指代簇。
/cctv/00/cctv_0000 0 4 熟知 VV (VP*))))) - 01 - Speaker#1 * (V*) * * -
bc/cctv/00/cctv_0000 0 5 的 DEC *)) - - - Speaker#1 * * * * -
bc/cctv/00/cctv_0000 0 6 卡通 NN (NP* - - - Speaker#1 * * * * (82
bc/cctv/00/cctv_0000 0 7 形象 NN *)) - - - Speaker#1 * * *) * 82)
bc/cctv/00/cctv_0000 0 8 以 P (VP(PP* - - - Speaker#1 * * (ARGM-MNR* * -
bc/cctv/00/cctv_0000 0 9 其 PN (NP(NP*) - - - Speaker#1 * * * * (82)
bc/cctv/00/cctv_0000 0 10 独有 JJ (DNP(ADJP*) - - - Speaker#1 * * * * -
bc/cctv/00/cctv_0000 0 11 的 DEG *) - - - Speaker#1 * * * * -
这个示例中同一共指簇的信息为 [82, 9, 9], [82, 6, 7],表示第9个词"其"和第6和第7"卡通形象",指代相同。