Multiple-Translation Arabic (MTA) Part 2数据集介绍,官网编号LDC2005T05

Multiple-Translation Arabic (MTA) Part 2(LDC2005T05)是 LDC 于 2005 年发布的现代标准阿拉伯语(MSA)多译文平行语料库,核心为法新社(AFP)阿拉伯语新闻文本 + 3 组独立人工英译,适配机器翻译评估、翻译质量自动度量与模型优化,是阿拉伯语 - 英语翻译评测的经典基准资源LDC。以下从核心信息、数据构成、标注与质控、应用与获取等方面展开:


一、核心基础信息

属性 详情
数据集名称 Multiple-Translation Arabic (MTA) Part 2
LDC 编号 LDC2005T05
开发 / 分发机构 University of Pennsylvania/LDC
发布时间 2005年
语言 现代标准阿拉伯语(MSA)→英语(多译文平行)
数据规模 约 10 万词(阿拉伯语源文本),3 组独立人工英译,覆盖政治、经济、军事等新闻领域
语料来源 法新社(AFP)阿拉伯语新闻专线文本
编码格式 UTF-8/ASCII(含 SGML 标注)
核心用途 机器翻译评估、翻译质量自动度量、阿英翻译模型优化、翻译多样性研究

二、数据采集与文件组织

  1. 采集背景:面向 DARPA 翻译评估项目,为阿拉伯语 - 英语翻译质量自动评估提供多参考标准语料,支撑 MT 系统评测与迭代优化LDC。
  2. 语料来源:法新社(AFP)阿拉伯语新闻文本,覆盖国际新闻多领域,适配通用新闻场景翻译任务。
  3. 文件组织:按新闻文档划分,以 SGML 标记结构化存储,含原文、3 组独立英译文本,提供句子级对齐文件,适配 MT 评估工具链输入需求LDC。
  4. 版本关联:与 MTA Part 1(LDC2002T03)同属系列资源,Part 2 扩充新闻语料规模与主题多样性,提升评估覆盖度与可靠性。

三、标注体系与质量控制

  1. 标注特征
    • 多译文平行:每篇阿拉伯语新闻对应 3 组独立人工英译,翻译团队无交叉、无资源共享,确保译文多样性与独立性LDC。
    • 结构化标注:SGML 标记文档边界、句子边界、翻译组标识,支持自动对齐与评估指标计算(如 BLEU/NIST)LDC。
    • 翻译质控:专业双语译者完成,经校对与一致性校验,确保译文符合新闻翻译规范与语言准确性LDC。
  2. 标注流程
    • 源文本筛选→独立团队翻译→译文校对→结构化标注→对齐验证,形成多参考黄金标准语料,适配翻译评估场景。
    • 标注指南公开,可用于复现标注规范与评估流程对齐。
  3. 数据特性:语料为高质量新闻文本,多译文设计适配翻译多样性与质量评估,标注结构化、对齐准确,适配工业级 MT 评测应用。

四、典型应用场景

  • 机器翻译评估:作为阿英翻译任务的标准测试集,用 3 组参考译文计算 BLEU/NIST 等指标,客观评估 MT 系统性能。
  • 翻译质量自动度量:训练 / 验证翻译质量评估(QE)模型,提升无参考场景下的质量预测准确性。
  • 阿英翻译模型优化:用于微调翻译模型,提升译文多样性与准确性,适配新闻领域翻译需求。
  • 翻译多样性研究:分析不同译者的翻译策略差异,支撑翻译理论与实践结合的研究。

NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

相关推荐
GISer_Jing2 小时前
AI Agent 人类参与HITL与知识检索RAG
人工智能·设计模式·aigc
智界前沿3 小时前
2026可落地商用数字人选型指南:TOP5产品深度测评与实战对比
人工智能·aigc·数字人
Coder_Boy_3 小时前
基于SpringAI的在线考试系统-企业级软件研发工程应用规范实现细节
大数据·开发语言·人工智能·spring boot
GISer_Jing4 小时前
AI开发实战:从零搭建智能应用
人工智能·prompt·aigc
WZGL12304 小时前
智慧养老方兴未艾,“AI+养老”让银龄老人晚年更美好
大数据·人工智能·物联网·生活·智能家居
aopstudio4 小时前
Jinja 是什么?为什么大模型的聊天模板使用它?
自然语言处理·llm·jinja
狼爷4 小时前
一文看懂 AI 世界里的新黑话Skills、MCP、Projects、Prompts
人工智能·openai·ai编程
疾风sxp4 小时前
nl2sql技术实现自动sql生成之langchain4j SqlDatabaseContentRetriever
java·人工智能·langchain4j
DisonTangor4 小时前
阿里Qwen开源Qwen3-VL-Embedding 和 Qwen3-VL-Reranker
人工智能·搜索引擎·开源·aigc·embedding