阿里国际AI翻译模型Marco霸榜WMT,英中赛道超越GPT-4.1与Gem

阿里国际AI翻译模型Marco霸榜WMT,英中赛道超越GPT-4.1与Gemini 2.5 Pro

近日,2025年国际机器翻译大赛(WMT, Conference on Machine Translation)公布了最终排名。阿里国际AI Business的翻译大模型Marco-MT-Algharb在本次大赛中表现出色,斩获6项冠军、4项亚军和2项季军。

尤为引人注目的是,在最受关注的英中(英语翻译至中文)语向上,Marco-MT超越了包括Gemini 2.5 Pro、GPT-4.1、Claude 4和Mistral-Medium在内的所有顶尖闭源AI系统,成功登顶榜首。

WMT的人工评测被视为机器翻译领域的"黄金标准"。此次夺冠标志着Marco-MT已从电商行业翻译的专业领域,成功迈入通用翻译的全球领先行列。在包括英译中在内的多个语向上,Marco-MT的表现甚至超过了人工翻译的水平。

鏖战顶级赛道:20B模型限制下的胜利

作为全球机器翻译领域的顶级赛事,WMT2025吸引了众多全球主流模型同台竞技,包括Gemini 2.5 Pro、GPT-4.1等闭源模型,以及DeepSeek-V3、Qwen3-235B等领先的开源模型。

阿里国际的Marco-MT模型参加的是WMT竞赛中难度更高的受限赛道 (restricted track)

与非受限赛道相比,受限赛道对参赛模型的要求极为严苛:

  1. 内容多样性:模型必须能处理文学、新闻、社交媒体等多样化的翻译内容。
  2. 资源限制:严格遵守仅使用开源数据和开源模型进行训练。
  3. 规模限制:模型参数规模不得超过20B。

成功秘诀:M2PO与强化学习

Marco-MT此次能够脱颖而出,关键在于将团队丰富的电商翻译模型训练经验与一套原创的训练方法**M2PO(多阶段偏好优化)**相结合,成功将强化学习范式应用于大模型翻译领域。

该系统的训练分为三个关键步骤来提升翻译质量:

  1. SFT微调:首先通过两轮监督微调(Supervised Fine-tuning)来拓宽模型的基础知识面。
  2. 强化学习:接着引入强化学习,让模型学会自主判断译文的优劣。
  3. 解码优化:最后,在解码阶段融合词对齐(word alignment)与重排序(re-ranking)技术,在保证译文流畅性的同时,精准还原原文的含义,显著提升了翻译的准确性和忠实度。

从电商到通用:厚积薄发

WMT被誉为机器翻译领域的"风向标",本届赛事采用自动指标(如COMET、LLM Judge)与大规模人工评测相结合的机制,最终排名完全以人工评分为准。Marco-MT在13个核心语向上的优异表现,标志着其通用翻译能力获得了业界的广泛认可。

据了解,Marco-MT发布于2024年,最初专注于电商场景翻译,已全面接入阿里国际旗下的电商平台,支持搜索、商品信息、对话、图片等多种场景的翻译。

长期处理跨文化、多语种的复杂业务需求,使其具备了高质量、低幻觉率等核心优势,为此次向通用翻译领域的拓展打下了坚实的基础。此前,Marco-MT已在语音翻译领域崭露头角,在2025年IWSLT国际赛事中斩获2项冠军和2项亚军,展现了其在机器翻译领域的多模态竞争力。

目前,此次比赛的模型已经开源,公众可在Hugging Face了解技术详情或在线体验翻译。

近日,2025年国际机器翻译大赛(WMT, Conference on Machine Translation)公布了最终排名。阿里国际AI Business的翻译大模型Marco-MT-Algharb在本次大赛中表现出色,斩获6项冠军、4项亚军和2项季军。

尤为引人注目的是,在最受关注的英中(英语翻译至中文)语向上,Marco-MT超越了包括Gemini 2.5 Pro、GPT-4.1、Claude 4和Mistral-Medium在内的所有顶尖闭源AI系统,成功登顶榜首。

WMT的人工评测被视为机器翻译领域的"黄金标准"。此次夺冠标志着Marco-MT已从电商行业翻译的专业领域,成功迈入通用翻译的全球领先行列。在包括英译中在内的多个语向上,Marco-MT的表现甚至超过了人工翻译的水平。

鏖战顶级赛道:20B模型限制下的胜利

作为全球机器翻译领域的顶级赛事,WMT2025吸引了众多全球主流模型同台竞技,包括Gemini 2.5 Pro、GPT-4.1等闭源模型,以及DeepSeek-V3、Qwen3-235B等领先的开源模型。

阿里国际的Marco-MT模型参加的是WMT竞赛中难度更高的受限赛道 (restricted track)

与非受限赛道相比,受限赛道对参赛模型的要求极为严苛:

  1. 内容多样性:模型必须能处理文学、新闻、社交媒体等多样化的翻译内容。
  2. 资源限制:严格遵守仅使用开源数据和开源模型进行训练。
  3. 规模限制:模型参数规模不得超过20B。

成功秘诀:M2PO与强化学习

Marco-MT此次能够脱颖而出,关键在于将团队丰富的电商翻译模型训练经验与一套原创的训练方法**M2PO(多阶段偏好优化)**相结合,成功将强化学习范式应用于大模型翻译领域。

该系统的训练分为三个关键步骤来提升翻译质量:

  1. SFT微调:首先通过两轮监督微调(Supervised Fine-tuning)来拓宽模型的基础知识面。
  2. 强化学习:接着引入强化学习,让模型学会自主判断译文的优劣。
  3. 解码优化:最后,在解码阶段融合词对齐(word alignment)与重排序(re-ranking)技术,在保证译文流畅性的同时,精准还原原文的含义,显著提升了翻译的准确性和忠实度。

从电商到通用:厚积薄发

WMT被誉为机器翻译领域的"风向标",本届赛事采用自动指标(如COMET、LLM Judge)与大规模人工评测相结合的机制,最终排名完全以人工评分为准。Marco-MT在13个核心语向上的优异表现,标志着其通用翻译能力获得了业界的广泛认可。

据了解,Marco-MT发布于2024年,最初专注于电商场景翻译,已全面接入阿里国际旗下的电商平台,支持搜索、商品信息、对话、图片等多种场景的翻译。

长期处理跨文化、多语种的复杂业务需求,使其具备了高质量、低幻觉率等核心优势,为此次向通用翻译领域的拓展打下了坚实的基础。此前,Marco-MT已在语音翻译领域崭露头角,在2025年IWSLT国际赛事中斩获2项冠军和2项亚军,展现了其在机器翻译领域的多模态竞争力。

目前,此次比赛的模型已经开源,公众可在Hugging Face了解技术详情或在线体验翻译。

相关推荐
智源研究院1 分钟前
智源开源 Reason-RFT:用强化学习重塑视觉推理,突破 VLM 泛化瓶颈
人工智能
DFT计算杂谈3 分钟前
ABINIT能带计算数据处理脚本
数据库·人工智能
BioRunYiXue3 分钟前
双荧光素酶报告基因实验
java·运维·服务器·数据库·人工智能·数据挖掘·eclipse
数据皮皮侠10 分钟前
政府创新采购数据库(2016-2024)
大数据·数据库·人工智能·制造·微信开放平台
综合热讯13 分钟前
泛微发布数智业财融合创新方案,AI驱动组织构建“业·财·票·税·档”一体化
大数据·人工智能
捷智算云服务16 分钟前
A100云主机租赁价格贵吗?具体费用是多少?
服务器·人工智能·云计算·gpu算力
LYFlied16 分钟前
Vue Vapor模式与AI时代前端发展的思考:虚拟DOM与框架的未来
前端·vue.js·人工智能·前端框架
kevin 119 分钟前
合同盖章前,如何比对差异,确保纸质版与电子版100%一致?
人工智能·自动化·ocr
周杰伦_Jay20 分钟前
【Spring AI】Spring生态AI应用开发框架
人工智能·spring·rxjava
林林宋22 分钟前
kimi k2(开源模型,1T -32B-MOE)
人工智能