GALE Phase 1 Distillation Training数据集介绍,官网编号LDC2007T20

GALE Phase 1 Distillation Training(LDC2007T20)是 LDC 为 DARPA GALE 计划构建、2007 年发布的信息提炼(Distillation)任务训练数据集,核心用于训练多语言文本 / 语音的信息抽取与知识整合模型,以人工标注的查询 - 事实(nugget)映射为核心特色LDC。以下是详细介绍:


基本信息

项目 详情
发布机构 Linguistic Data Consortium (LDC),BAE Systems 参与开发LDC
发布时间 2007 年
语种 阿拉伯语、中文、英语(多语言源 + 英语标注)
编号 LDC2007T20
语料来源 GALE Phase 1 的广播新闻、网页文本、语音转录文本等多模态 / 多体裁语料LDC
数据规模 含约 1000 个英文查询,对应超 10,000 个标注事实(nugget),覆盖阿 / 中 / 英三语源数据LDC
核心标注 查询 - 事实映射、事实类型标注、来源关联、冗余 / 矛盾标记、置信度评分LDC
数据格式 UTF - 8 编码文本、XML 标注文件、查询元数据、事实抽取脚本与规范文档

数据内容与结构

该数据集以 "查询驱动的信息提炼" 为核心,结构如下:

  1. 核心资源
    • 源数据:阿 / 中 / 英三语的广播新闻、网页文本、语音转录文本,涵盖政治、经济、国际事件等领域LDC。
    • 查询集合:1000 个英文查询,含子句级与整句级查询,覆盖事实型、关系型、事件型等查询类型LDC。
    • 事实标注(nugget):每个查询对应多个英文事实,包含核心信息、来源片段引用、类型标签(如实体、事件、关系)LDC。
  2. 标注与元数据
    • 映射标注:查询与事实的对应关系、事实间的冗余 / 矛盾标记、事实置信度评分(1-5 分)LDC。
    • 来源标注:每个事实绑定对应的源文档 ID、片段位置、语言类型,支持溯源验证LDC。
    • 元数据:查询 ID、创建者、标注人员信息、标注时间、质量校验记录等LDC。

构建流程与规范

  1. 查询设计:由 BAE 与 LDC 联合设计 1000 个英文查询,覆盖多领域与多查询类型,确保任务多样性LDC。
  2. 源数据准备:筛选 GALE Phase 1 的三语多体裁语料,建立多语言源数据池,适配跨语言信息提炼需求LDC。
  3. 事实标注
    • 片段抽取:标注员从源数据中抽取与查询相关的文本片段,解决指代消解与语境补全LDC。
    • 事实生成:将片段转化为独立、无歧义的英文事实(nugget),标注类型与置信度LDC。
    • 冲突处理:标记重复事实、矛盾事实,确保知识一致性。
  4. 后处理与标准化
    • 质量校验:双人交叉校对 + 终审,修正标注错误,统一术语与标签规范LDC。
    • 格式统一:将标注结果转化为标准 XML 格式,生成查询 - 事实映射表与来源索引LDC。
    • 数据集划分:按比例拆分为训练集(约 800 个查询)、开发集(约 100 个查询)、测试集(约 100 个查询),适配模型训练与评估LDC。

核心特点

  1. 查询驱动:以真实查询为导向,标注结果贴合实际信息检索与知识整合需求LDC。
  2. 多语多源:融合三语与多体裁源数据,适配跨语言、多模态的信息提炼模型训练LDC。
  3. 标注精细:人工标注事实 + 来源溯源 + 质量评分,标注质量高,可直接用于基准测试LDC。
  4. 任务适配:完美匹配 GALE 计划的信息提炼任务,支持模型从多语言源中自动抽取并整合知识。

应用场景

  1. 信息提炼模型训练:用于训练跨语言信息抽取、知识图谱构建、多文档摘要模型,适配 GALE 系统的知识整合模块。
  2. 问答系统开发:作为多语言问答模型的训练与评估数据,提升事实型问答的准确性LDC。
  3. 知识验证研究:用于事实一致性校验、冗余信息过滤、矛盾检测算法的开发与测试。
  4. 跨语言 NLP 任务:助力跨语言语义表示学习、多语言实体 / 事件抽取模型优化。

下载方法:

1、关注LDC语料小助手,回复GALE Phase 1 Distillation Training

NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

相关推荐
侃谈科技圈1 分钟前
模型之外,声网定义了AI交互新标准
人工智能
weixin_553654483 分钟前
ChatGPT好用还是Gemini好用?
人工智能·chatgpt·大模型
阿文的代码库4 分钟前
机器学习评价指标之转换化为二分类任务
人工智能·分类·数据挖掘
余衫马4 分钟前
Microsoft Semantic Kernel 实战:使用内核参数实现一个简单的对话机器人
人工智能·microsoft·ai·agent·智能体
搞科研的小刘选手4 分钟前
【大连市计算机学会主办】第三届图像处理、智能控制与计算机工程国际学术会议(IPICE 2026)
图像处理·人工智能·深度学习·算法·计算机·数据挖掘·智能控制
灰灰勇闯IT4 分钟前
ops-softmax:Transformer 推理中的概率归一化引擎
人工智能·深度学习·transformer
翼龙云_cloud5 分钟前
云代理商:Hermes Agent在量化交易中的实战应用
运维·服务器·人工智能·ai智能体·hermes agent
人月神话-Lee7 分钟前
【图像处理】高斯模糊——最优雅的模糊算法
图像处理·人工智能·算法·ios·ai编程·swift
中科GIS地理信息培训7 分钟前
【ArcGIS Pro 3.7新增功能2】新型高光谱图像工具:连续谱去除、PCA与 MNF 降低数据复杂性、使用波长直接计算、支持STAC等
人工智能·arcgis·目标跟踪
hughnz9 分钟前
执行数字化建井计划——提升钻井过程自动化
人工智能·机器人