Multiple-Translation Arabic (MTA) Part 2数据集介绍,官网编号LDC2005T05

Multiple-Translation Arabic (MTA) Part 2(LDC2005T05)是 LDC 于 2005 年发布的现代标准阿拉伯语(MSA)多译文平行语料库,核心为法新社(AFP)阿拉伯语新闻文本 + 3 组独立人工英译,适配机器翻译评估、翻译质量自动度量与模型优化,是阿拉伯语 - 英语翻译评测的经典基准资源LDC。以下从核心信息、数据构成、标注与质控、应用与获取等方面展开:


一、核心基础信息

属性 详情
数据集名称 Multiple-Translation Arabic (MTA) Part 2
LDC 编号 LDC2005T05
开发 / 分发机构 University of Pennsylvania/LDC
发布时间 2005年
语言 现代标准阿拉伯语(MSA)→英语(多译文平行)
数据规模 约 10 万词(阿拉伯语源文本),3 组独立人工英译,覆盖政治、经济、军事等新闻领域
语料来源 法新社(AFP)阿拉伯语新闻专线文本
编码格式 UTF-8/ASCII(含 SGML 标注)
核心用途 机器翻译评估、翻译质量自动度量、阿英翻译模型优化、翻译多样性研究

二、数据采集与文件组织

  1. 采集背景:面向 DARPA 翻译评估项目,为阿拉伯语 - 英语翻译质量自动评估提供多参考标准语料,支撑 MT 系统评测与迭代优化LDC。
  2. 语料来源:法新社(AFP)阿拉伯语新闻文本,覆盖国际新闻多领域,适配通用新闻场景翻译任务。
  3. 文件组织:按新闻文档划分,以 SGML 标记结构化存储,含原文、3 组独立英译文本,提供句子级对齐文件,适配 MT 评估工具链输入需求LDC。
  4. 版本关联:与 MTA Part 1(LDC2002T03)同属系列资源,Part 2 扩充新闻语料规模与主题多样性,提升评估覆盖度与可靠性。

三、标注体系与质量控制

  1. 标注特征
    • 多译文平行:每篇阿拉伯语新闻对应 3 组独立人工英译,翻译团队无交叉、无资源共享,确保译文多样性与独立性LDC。
    • 结构化标注:SGML 标记文档边界、句子边界、翻译组标识,支持自动对齐与评估指标计算(如 BLEU/NIST)LDC。
    • 翻译质控:专业双语译者完成,经校对与一致性校验,确保译文符合新闻翻译规范与语言准确性LDC。
  2. 标注流程
    • 源文本筛选→独立团队翻译→译文校对→结构化标注→对齐验证,形成多参考黄金标准语料,适配翻译评估场景。
    • 标注指南公开,可用于复现标注规范与评估流程对齐。
  3. 数据特性:语料为高质量新闻文本,多译文设计适配翻译多样性与质量评估,标注结构化、对齐准确,适配工业级 MT 评测应用。

四、典型应用场景

  • 机器翻译评估:作为阿英翻译任务的标准测试集,用 3 组参考译文计算 BLEU/NIST 等指标,客观评估 MT 系统性能。
  • 翻译质量自动度量:训练 / 验证翻译质量评估(QE)模型,提升无参考场景下的质量预测准确性。
  • 阿英翻译模型优化:用于微调翻译模型,提升译文多样性与准确性,适配新闻领域翻译需求。
  • 翻译多样性研究:分析不同译者的翻译策略差异,支撑翻译理论与实践结合的研究。

NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

相关推荐
PaperRed ai写作降重助手8 分钟前
AI 论文写作工具排名(实测不踩坑)
人工智能·aigc·ai写作·论文写作·智能降重·辅助写作·降重复率
ktoking8 分钟前
Stock Agent AI 模型的选股器实现 [五]
人工智能·python
qwy71522925816312 分钟前
10-图像的翻转
人工智能·opencv·计算机视觉
霍格沃兹测试学院-小舟畅学13 分钟前
Playwright企业级测试架构设计:模块化与可扩展性
人工智能·测试工具
卡奥斯开源社区官方18 分钟前
深度拆解:Clawdbot“集体永生”技术内核,是AI协同突破还是营销噱头?
人工智能
小W与影刀RPA21 分钟前
【影刀 RPA】 :文档敏感词批量替换,省时省力又高效
人工智能·python·低代码·自动化·rpa·影刀rpa
小咖自动剪辑35 分钟前
12306余票监控辅助工具详解:自动查询/多方案预约/到点提交
人工智能
得赢科技38 分钟前
智能菜谱研发公司推荐 适配中小型餐饮
大数据·运维·人工智能
victory04311 小时前
Gradio实现中英文切换,不影响页面状态,不得刷新页面情况下
人工智能
微光闪现1 小时前
践行“科技向善”,微乐播捐赠108,888元助力唇腭裂儿童绽放笑容
人工智能