Multiple-Translation Arabic (MTA) Part 2数据集介绍,官网编号LDC2005T05

Multiple-Translation Arabic (MTA) Part 2(LDC2005T05)是 LDC 于 2005 年发布的现代标准阿拉伯语(MSA)多译文平行语料库,核心为法新社(AFP)阿拉伯语新闻文本 + 3 组独立人工英译,适配机器翻译评估、翻译质量自动度量与模型优化,是阿拉伯语 - 英语翻译评测的经典基准资源LDC。以下从核心信息、数据构成、标注与质控、应用与获取等方面展开:


一、核心基础信息

属性 详情
数据集名称 Multiple-Translation Arabic (MTA) Part 2
LDC 编号 LDC2005T05
开发 / 分发机构 University of Pennsylvania/LDC
发布时间 2005年
语言 现代标准阿拉伯语(MSA)→英语(多译文平行)
数据规模 约 10 万词(阿拉伯语源文本),3 组独立人工英译,覆盖政治、经济、军事等新闻领域
语料来源 法新社(AFP)阿拉伯语新闻专线文本
编码格式 UTF-8/ASCII(含 SGML 标注)
核心用途 机器翻译评估、翻译质量自动度量、阿英翻译模型优化、翻译多样性研究

二、数据采集与文件组织

  1. 采集背景:面向 DARPA 翻译评估项目,为阿拉伯语 - 英语翻译质量自动评估提供多参考标准语料,支撑 MT 系统评测与迭代优化LDC。
  2. 语料来源:法新社(AFP)阿拉伯语新闻文本,覆盖国际新闻多领域,适配通用新闻场景翻译任务。
  3. 文件组织:按新闻文档划分,以 SGML 标记结构化存储,含原文、3 组独立英译文本,提供句子级对齐文件,适配 MT 评估工具链输入需求LDC。
  4. 版本关联:与 MTA Part 1(LDC2002T03)同属系列资源,Part 2 扩充新闻语料规模与主题多样性,提升评估覆盖度与可靠性。

三、标注体系与质量控制

  1. 标注特征
    • 多译文平行:每篇阿拉伯语新闻对应 3 组独立人工英译,翻译团队无交叉、无资源共享,确保译文多样性与独立性LDC。
    • 结构化标注:SGML 标记文档边界、句子边界、翻译组标识,支持自动对齐与评估指标计算(如 BLEU/NIST)LDC。
    • 翻译质控:专业双语译者完成,经校对与一致性校验,确保译文符合新闻翻译规范与语言准确性LDC。
  2. 标注流程
    • 源文本筛选→独立团队翻译→译文校对→结构化标注→对齐验证,形成多参考黄金标准语料,适配翻译评估场景。
    • 标注指南公开,可用于复现标注规范与评估流程对齐。
  3. 数据特性:语料为高质量新闻文本,多译文设计适配翻译多样性与质量评估,标注结构化、对齐准确,适配工业级 MT 评测应用。

四、典型应用场景

  • 机器翻译评估:作为阿英翻译任务的标准测试集,用 3 组参考译文计算 BLEU/NIST 等指标,客观评估 MT 系统性能。
  • 翻译质量自动度量:训练 / 验证翻译质量评估(QE)模型,提升无参考场景下的质量预测准确性。
  • 阿英翻译模型优化:用于微调翻译模型,提升译文多样性与准确性,适配新闻领域翻译需求。
  • 翻译多样性研究:分析不同译者的翻译策略差异,支撑翻译理论与实践结合的研究。

NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

相关推荐
Proxy_ZZ02 分钟前
用Matlab绘制BER曲线对比SPA与Min-Sum性能
人工智能·算法·机器学习
黎阳之光3 分钟前
黎阳之光:以视频孪生领跑全球,赋能数字孪生水利智能监测新征程
大数据·人工智能·算法·安全·数字孪生
宇擎智脑科技13 分钟前
基于 SAM3 + FastAPI 搭建智能图像标注工具实战
人工智能·计算机视觉
F_U_N_21 分钟前
效率提升80%:AI全流程研发真实项目落地复盘
人工智能·ai编程
月诸清酒25 分钟前
24-260409 AI 科技日报 (Gemma 4发布一周下载破千万,开源模型生态加速演进)
人工智能·开源
2501_9333295530 分钟前
技术架构深度解析:Infoseek舆情监测系统的全链路设计与GEO时代的技术实践
开发语言·人工智能·分布式·架构
X journey41 分钟前
机器学习进阶(16):如何防止过拟合
人工智能·机器学习
AI_Claude_code42 分钟前
ZLibrary访问困境方案四:利用Cloudflare Workers等边缘计算实现访问
javascript·人工智能·爬虫·python·网络爬虫·边缘计算·爬山算法
学海星球1 小时前
Claude Code 开发实战:从入门到精通的完整指南
人工智能
一次旅行1 小时前
Hermes Agent接入飞书
人工智能·飞书