Chinese News Translation Text Part 1数据集介绍,官网编号LDC2005T06

Chinese News Translation Text Part 1(LDC2005T06)是 LDC 于 2005 年发布的汉英新闻专线平行语料库,面向 DARPA GALE/TIDES 项目,含 1001 篇新闻(法新社 580 篇 + 新华社 421 篇)、约 47.4 万汉字中文原文与 28.5 万词英文译文,适配机器翻译、跨语言检索与模型基线训练,标注结构化、译文经质控,是汉英新闻翻译领域的经典基准资源。以下从核心信息、数据构成、标注与质控、应用与获取等方面展开:


一、核心基础信息

属性 详情
数据集名称 Chinese News Translation Text Part 1
LDC 编号 LDC2005T06
开发 / 分发机构 LDC(Xiaoyi Ma 主导)
发布时间 2005 年 3 月 15 日
语言 中文(普通话)、英语
数据规模 中文约 47.4 万字符,英文约 28.5 万词,共 1001 篇新闻
语料来源 法新社(AFP)、新华社(Xinhua)新闻专线文本
编码格式 GB 编码(原文)、SGML 标注(发布版)
核心用途 机器翻译训练与评估、跨语言信息检索、双语教学、汉英 NLP 模型开发
项目背景 支撑 DARPA GALE 与 TIDES 项目,为跨语言信息处理提供标准化平行语料

二、数据采集与构成

  1. 采集背景:面向机器翻译与跨语言信息检索研发,提供高质量汉英新闻平行语料,支撑汉英翻译技术与跨语言信息处理任务。
  2. 语料来源
    • 法新社(AFP):580 篇,覆盖 2002 年 7-9 月、2004 年 4-8 月新闻,含政治、经济、军事等领域。
    • 新华社(Xinhua):421 篇,时间范围与 AFP 一致,扩充主题多样性与领域覆盖度。
  3. 文件组织
    • 按新闻文本划分文件,每个故事对应独立文件,源文本与译文文件同名,便于对齐与管理。
    • 提供源文本目录与译文目录,均为 SGML 格式,标记句子边界、段落边界等信息,适配 NLP 工具链输入需求。
  4. 版本关联:作为系列资源的 Part 1,后续有同主题扩展语料,共同支撑汉英新闻翻译领域模型训练与评估。

三、标注体系与质量控制

  1. 标注特征
    • 单译文平行:每篇中文新闻对应 1 组人工英译,由 7 家翻译机构按统一指南完成,确保翻译质量与一致性。
    • 结构化标注:SGML 标记文档边界、句子边界、段落边界,支持自动对齐与评估指标计算(如 BLEU/NIST)。
    • 翻译质控:专业双语译者完成,前期 5 篇试译质控,后续持续监控,确保译文符合新闻翻译规范与语言准确性。
  2. 标注流程
    • 源文本筛选→翻译机构分配→试译质控→批量翻译→持续监控→结构化标注→对齐验证,形成黄金标准平行语料。
    • 翻译指南统一且多次优化,确保标注规范与流程一致性,适配工业级 NLP 应用。
  3. 数据特性:语料为高质量新闻文本,标注结构化、对齐准确,适配机器翻译与跨语言信息检索场景,支撑工业级汉英 NLP 应用。

四、典型应用场景

  • 机器翻译模型训练:作为汉英新闻翻译模型的基准训练数据,提升模型翻译准确性与领域适配性。
  • 翻译质量评估:用于汉英翻译系统评测,计算 BLEU/NIST 等指标,客观评估翻译性能。
  • 跨语言信息检索:支撑汉英跨语言检索系统开发,提升检索准确性与召回率。
  • 双语教学:用于新闻翻译教学与实践,帮助学习者掌握新闻翻译规范与语言技巧。
  • 汉英 NLP 模型开发:用于预训练模型的双语知识注入,提升模型跨语言理解能力。

NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

相关推荐
造夢先森1 天前
Clawdbot(OpenClaw)安装部署教程
人工智能·微服务·云原生
近津薪荼1 天前
优选算法——滑动窗口1(单调性)
c++·学习·算法
攻城狮7号1 天前
宇树 开源 UnifoLM-VLA-0 大模型:给人形机器人装上通用的“直觉大脑”
人工智能·机器人·具身智能·宇树科技·unifolm-vla-0
diediedei1 天前
嵌入式C++驱动开发
开发语言·c++·算法
aihuangwu1 天前
ChatGPT和Gemini图表怎么导出
人工智能·ai·chatgpt·deepseek·ds随心转
2301_765703141 天前
工具、测试与部署
jvm·数据库·python
Jackson@ML1 天前
Kimi K2.5横空出世!K2.5模型功能详解
python·大语言模型·kimi
燃于AC之乐1 天前
《算法实战笔记》第10期:六大算法实战——枚举、贪心、并查集、Kruskal、双指针、区间DP
算法·贪心算法·图论·双指针·区间dp·二进制枚举
Bits to Atoms1 天前
宇树G1语音助手完整开发指南(下)——从零构建智能知识库对话系统
人工智能·机器人·音视频·语音识别
BYSJMG1 天前
计算机毕设选题推荐:基于大数据的癌症数据分析与可视化系统
大数据·vue.js·python·数据挖掘·数据分析·课程设计