阿里国际AI翻译模型Marco霸榜WMT,英中赛道超越GPT-4.1与Gem

阿里国际AI翻译模型Marco霸榜WMT,英中赛道超越GPT-4.1与Gemini 2.5 Pro

近日,2025年国际机器翻译大赛(WMT, Conference on Machine Translation)公布了最终排名。阿里国际AI Business的翻译大模型Marco-MT-Algharb在本次大赛中表现出色,斩获6项冠军、4项亚军和2项季军。

尤为引人注目的是,在最受关注的英中(英语翻译至中文)语向上,Marco-MT超越了包括Gemini 2.5 Pro、GPT-4.1、Claude 4和Mistral-Medium在内的所有顶尖闭源AI系统,成功登顶榜首。

WMT的人工评测被视为机器翻译领域的"黄金标准"。此次夺冠标志着Marco-MT已从电商行业翻译的专业领域,成功迈入通用翻译的全球领先行列。在包括英译中在内的多个语向上,Marco-MT的表现甚至超过了人工翻译的水平。

鏖战顶级赛道:20B模型限制下的胜利

作为全球机器翻译领域的顶级赛事,WMT2025吸引了众多全球主流模型同台竞技,包括Gemini 2.5 Pro、GPT-4.1等闭源模型,以及DeepSeek-V3、Qwen3-235B等领先的开源模型。

阿里国际的Marco-MT模型参加的是WMT竞赛中难度更高的受限赛道 (restricted track)

与非受限赛道相比,受限赛道对参赛模型的要求极为严苛:

  1. 内容多样性:模型必须能处理文学、新闻、社交媒体等多样化的翻译内容。
  2. 资源限制:严格遵守仅使用开源数据和开源模型进行训练。
  3. 规模限制:模型参数规模不得超过20B。

成功秘诀:M2PO与强化学习

Marco-MT此次能够脱颖而出,关键在于将团队丰富的电商翻译模型训练经验与一套原创的训练方法**M2PO(多阶段偏好优化)**相结合,成功将强化学习范式应用于大模型翻译领域。

该系统的训练分为三个关键步骤来提升翻译质量:

  1. SFT微调:首先通过两轮监督微调(Supervised Fine-tuning)来拓宽模型的基础知识面。
  2. 强化学习:接着引入强化学习,让模型学会自主判断译文的优劣。
  3. 解码优化:最后,在解码阶段融合词对齐(word alignment)与重排序(re-ranking)技术,在保证译文流畅性的同时,精准还原原文的含义,显著提升了翻译的准确性和忠实度。

从电商到通用:厚积薄发

WMT被誉为机器翻译领域的"风向标",本届赛事采用自动指标(如COMET、LLM Judge)与大规模人工评测相结合的机制,最终排名完全以人工评分为准。Marco-MT在13个核心语向上的优异表现,标志着其通用翻译能力获得了业界的广泛认可。

据了解,Marco-MT发布于2024年,最初专注于电商场景翻译,已全面接入阿里国际旗下的电商平台,支持搜索、商品信息、对话、图片等多种场景的翻译。

长期处理跨文化、多语种的复杂业务需求,使其具备了高质量、低幻觉率等核心优势,为此次向通用翻译领域的拓展打下了坚实的基础。此前,Marco-MT已在语音翻译领域崭露头角,在2025年IWSLT国际赛事中斩获2项冠军和2项亚军,展现了其在机器翻译领域的多模态竞争力。

目前,此次比赛的模型已经开源,公众可在Hugging Face了解技术详情或在线体验翻译。

近日,2025年国际机器翻译大赛(WMT, Conference on Machine Translation)公布了最终排名。阿里国际AI Business的翻译大模型Marco-MT-Algharb在本次大赛中表现出色,斩获6项冠军、4项亚军和2项季军。

尤为引人注目的是,在最受关注的英中(英语翻译至中文)语向上,Marco-MT超越了包括Gemini 2.5 Pro、GPT-4.1、Claude 4和Mistral-Medium在内的所有顶尖闭源AI系统,成功登顶榜首。

WMT的人工评测被视为机器翻译领域的"黄金标准"。此次夺冠标志着Marco-MT已从电商行业翻译的专业领域,成功迈入通用翻译的全球领先行列。在包括英译中在内的多个语向上,Marco-MT的表现甚至超过了人工翻译的水平。

鏖战顶级赛道:20B模型限制下的胜利

作为全球机器翻译领域的顶级赛事,WMT2025吸引了众多全球主流模型同台竞技,包括Gemini 2.5 Pro、GPT-4.1等闭源模型,以及DeepSeek-V3、Qwen3-235B等领先的开源模型。

阿里国际的Marco-MT模型参加的是WMT竞赛中难度更高的受限赛道 (restricted track)

与非受限赛道相比,受限赛道对参赛模型的要求极为严苛:

  1. 内容多样性:模型必须能处理文学、新闻、社交媒体等多样化的翻译内容。
  2. 资源限制:严格遵守仅使用开源数据和开源模型进行训练。
  3. 规模限制:模型参数规模不得超过20B。

成功秘诀:M2PO与强化学习

Marco-MT此次能够脱颖而出,关键在于将团队丰富的电商翻译模型训练经验与一套原创的训练方法**M2PO(多阶段偏好优化)**相结合,成功将强化学习范式应用于大模型翻译领域。

该系统的训练分为三个关键步骤来提升翻译质量:

  1. SFT微调:首先通过两轮监督微调(Supervised Fine-tuning)来拓宽模型的基础知识面。
  2. 强化学习:接着引入强化学习,让模型学会自主判断译文的优劣。
  3. 解码优化:最后,在解码阶段融合词对齐(word alignment)与重排序(re-ranking)技术,在保证译文流畅性的同时,精准还原原文的含义,显著提升了翻译的准确性和忠实度。

从电商到通用:厚积薄发

WMT被誉为机器翻译领域的"风向标",本届赛事采用自动指标(如COMET、LLM Judge)与大规模人工评测相结合的机制,最终排名完全以人工评分为准。Marco-MT在13个核心语向上的优异表现,标志着其通用翻译能力获得了业界的广泛认可。

据了解,Marco-MT发布于2024年,最初专注于电商场景翻译,已全面接入阿里国际旗下的电商平台,支持搜索、商品信息、对话、图片等多种场景的翻译。

长期处理跨文化、多语种的复杂业务需求,使其具备了高质量、低幻觉率等核心优势,为此次向通用翻译领域的拓展打下了坚实的基础。此前,Marco-MT已在语音翻译领域崭露头角,在2025年IWSLT国际赛事中斩获2项冠军和2项亚军,展现了其在机器翻译领域的多模态竞争力。

目前,此次比赛的模型已经开源,公众可在Hugging Face了解技术详情或在线体验翻译。

相关推荐
俊哥V3 小时前
每日 AI 研究简报 · 2026-05-21
人工智能·ai
2601_957884843 小时前
深度拆解:大模型RAG架构下,GEO优化的技术实现路径
人工智能·架构
这个DBA有点耶3 小时前
DBA的AI助手:向量检索与NL2SQL入门
数据库·人工智能·postgresql·学习方法·dba
YOLO数据集集合3 小时前
无人机航拍林业树种分割|单木树冠检测|三维点云|遥感影像数据集10059期
人工智能·yolo·目标检测·无人机
Pocker_Spades_A4 小时前
工业智能化的时序选型指南:当数据底座遇见机器学习
人工智能·机器学习
2601_955781984 小时前
飞书远程控机:OpenClaw配置全攻略
人工智能·开源·github·飞书·open claw安装·open claw部署
Inhand陈工4 小时前
游轮WiFi覆盖方案复盘:6台5G CPE + AP实现全船高速上网
人工智能·物联网·网络协议·网络安全·信息与通信·iot
程序猿追4 小时前
在 HarmonyOS 模拟器上种出斐波那契螺旋线
大数据·人工智能·microsoft·华为·harmonyos
:mnong4 小时前
跟着 Sesame Robot 项目学习
人工智能·robot·esp
AI算法沐枫4 小时前
机器学习到底是什么?
人工智能·python·深度学习·机器学习·数据挖掘·大模型·#ai