Chinese News Translation Text Part 1数据集介绍，官网编号LDC2005T06

ldccorpora2026-01-13 13:25

Chinese News Translation Text Part 1（LDC2005T06）是 LDC 于 2005 年发布的汉英新闻专线平行语料库，面向 DARPA GALE/TIDES 项目，含 1001 篇新闻（法新社 580 篇 + 新华社 421 篇）、约 47.4 万汉字中文原文与 28.5 万词英文译文，适配机器翻译、跨语言检索与模型基线训练，标注结构化、译文经质控，是汉英新闻翻译领域的经典基准资源。以下从核心信息、数据构成、标注与质控、应用与获取等方面展开：

一、核心基础信息

属性	详情
数据集名称	Chinese News Translation Text Part 1
LDC 编号	LDC2005T06
开发 / 分发机构	LDC（Xiaoyi Ma 主导）
发布时间	2005 年 3 月 15 日
语言	中文（普通话）、英语
数据规模	中文约 47.4 万字符，英文约 28.5 万词，共 1001 篇新闻
语料来源	法新社（AFP）、新华社（Xinhua）新闻专线文本
编码格式	GB 编码（原文）、SGML 标注（发布版）
核心用途	机器翻译训练与评估、跨语言信息检索、双语教学、汉英 NLP 模型开发
项目背景	支撑 DARPA GALE 与 TIDES 项目，为跨语言信息处理提供标准化平行语料

二、数据采集与构成

采集背景：面向机器翻译与跨语言信息检索研发，提供高质量汉英新闻平行语料，支撑汉英翻译技术与跨语言信息处理任务。
语料来源
- 法新社（AFP）：580 篇，覆盖 2002 年 7-9 月、2004 年 4-8 月新闻，含政治、经济、军事等领域。
- 新华社（Xinhua）：421 篇，时间范围与 AFP 一致，扩充主题多样性与领域覆盖度。
文件组织
- 按新闻文本划分文件，每个故事对应独立文件，源文本与译文文件同名，便于对齐与管理。
- 提供源文本目录与译文目录，均为 SGML 格式，标记句子边界、段落边界等信息，适配 NLP 工具链输入需求。
版本关联：作为系列资源的 Part 1，后续有同主题扩展语料，共同支撑汉英新闻翻译领域模型训练与评估。

三、标注体系与质量控制

标注特征
- 单译文平行：每篇中文新闻对应 1 组人工英译，由 7 家翻译机构按统一指南完成，确保翻译质量与一致性。
- 结构化标注：SGML 标记文档边界、句子边界、段落边界，支持自动对齐与评估指标计算（如 BLEU/NIST）。
- 翻译质控：专业双语译者完成，前期 5 篇试译质控，后续持续监控，确保译文符合新闻翻译规范与语言准确性。
标注流程
- 源文本筛选→翻译机构分配→试译质控→批量翻译→持续监控→结构化标注→对齐验证，形成黄金标准平行语料。
- 翻译指南统一且多次优化，确保标注规范与流程一致性，适配工业级 NLP 应用。
数据特性：语料为高质量新闻文本，标注结构化、对齐准确，适配机器翻译与跨语言信息检索场景，支撑工业级汉英 NLP 应用。

四、典型应用场景

机器翻译模型训练：作为汉英新闻翻译模型的基准训练数据，提升模型翻译准确性与领域适配性。
翻译质量评估：用于汉英翻译系统评测，计算 BLEU/NIST 等指标，客观评估翻译性能。
跨语言信息检索：支撑汉英跨语言检索系统开发，提升检索准确性与召回率。
双语教学：用于新闻翻译教学与实践，帮助学习者掌握新闻翻译规范与语言技巧。
汉英 NLP 模型开发：用于预训练模型的双语知识注入，提升模型跨语言理解能力。

NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

上一篇：毕业项目推荐：99-基于yolov8/yolov5/yolo11的肾结石检测识别系统（Python+卷积神经网络）

下一篇：0和1的个数

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 年 AI 大模型 & AI 编程工具实战全总结 092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？10微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新