GALE Phase 1 Distillation Training数据集介绍，官网编号LDC2007T20

GALE Phase 1 Distillation Training（LDC2007T20）是 LDC 为 DARPA GALE 计划构建、2007 年发布的信息提炼（Distillation）任务训练数据集，核心用于训练多语言文本 / 语音的信息抽取与知识整合模型，以人工标注的查询 - 事实（nugget）映射为核心特色LDC。以下是详细介绍：

基本信息

项目	详情
发布机构	Linguistic Data Consortium (LDC)，BAE Systems 参与开发LDC
发布时间	2007 年
语种	阿拉伯语、中文、英语（多语言源 + 英语标注）
编号	LDC2007T20
语料来源	GALE Phase 1 的广播新闻、网页文本、语音转录文本等多模态 / 多体裁语料LDC
数据规模	含约 1000 个英文查询，对应超 10,000 个标注事实（nugget），覆盖阿 / 中 / 英三语源数据LDC
核心标注	查询 - 事实映射、事实类型标注、来源关联、冗余 / 矛盾标记、置信度评分LDC
数据格式	UTF - 8 编码文本、XML 标注文件、查询元数据、事实抽取脚本与规范文档

数据内容与结构

该数据集以 "查询驱动的信息提炼" 为核心，结构如下：

核心资源
- 源数据：阿 / 中 / 英三语的广播新闻、网页文本、语音转录文本，涵盖政治、经济、国际事件等领域LDC。
- 查询集合：1000 个英文查询，含子句级与整句级查询，覆盖事实型、关系型、事件型等查询类型LDC。
- 事实标注（nugget）：每个查询对应多个英文事实，包含核心信息、来源片段引用、类型标签（如实体、事件、关系）LDC。
标注与元数据
- 映射标注：查询与事实的对应关系、事实间的冗余 / 矛盾标记、事实置信度评分（1-5 分）LDC。
- 来源标注：每个事实绑定对应的源文档 ID、片段位置、语言类型，支持溯源验证LDC。
- 元数据：查询 ID、创建者、标注人员信息、标注时间、质量校验记录等LDC。

构建流程与规范

查询设计：由 BAE 与 LDC 联合设计 1000 个英文查询，覆盖多领域与多查询类型，确保任务多样性LDC。
源数据准备：筛选 GALE Phase 1 的三语多体裁语料，建立多语言源数据池，适配跨语言信息提炼需求LDC。
事实标注
- 片段抽取：标注员从源数据中抽取与查询相关的文本片段，解决指代消解与语境补全LDC。
- 事实生成：将片段转化为独立、无歧义的英文事实（nugget），标注类型与置信度LDC。
- 冲突处理：标记重复事实、矛盾事实，确保知识一致性。
后处理与标准化
- 质量校验：双人交叉校对 + 终审，修正标注错误，统一术语与标签规范LDC。
- 格式统一：将标注结果转化为标准 XML 格式，生成查询 - 事实映射表与来源索引LDC。
- 数据集划分：按比例拆分为训练集（约 800 个查询）、开发集（约 100 个查询）、测试集（约 100 个查询），适配模型训练与评估LDC。

核心特点

查询驱动：以真实查询为导向，标注结果贴合实际信息检索与知识整合需求LDC。
多语多源：融合三语与多体裁源数据，适配跨语言、多模态的信息提炼模型训练LDC。
标注精细：人工标注事实 + 来源溯源 + 质量评分，标注质量高，可直接用于基准测试LDC。
任务适配：完美匹配 GALE 计划的信息提炼任务，支持模型从多语言源中自动抽取并整合知识。

应用场景

信息提炼模型训练：用于训练跨语言信息抽取、知识图谱构建、多文档摘要模型，适配 GALE 系统的知识整合模块。
问答系统开发：作为多语言问答模型的训练与评估数据，提升事实型问答的准确性LDC。
知识验证研究：用于事实一致性校验、冗余信息过滤、矛盾检测算法的开发与测试。
跨语言 NLP 任务：助力跨语言语义表示学习、多语言实体 / 事件抽取模型优化。

下载方法：

1、关注LDC语料小助手，回复GALE Phase 1 Distillation Training

NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg