阿里国际AI翻译模型Marco霸榜WMT,英中赛道超越GPT-4.1与Gem

阿里国际AI翻译模型Marco霸榜WMT,英中赛道超越GPT-4.1与Gemini 2.5 Pro

近日,2025年国际机器翻译大赛(WMT, Conference on Machine Translation)公布了最终排名。阿里国际AI Business的翻译大模型Marco-MT-Algharb在本次大赛中表现出色,斩获6项冠军、4项亚军和2项季军。

尤为引人注目的是,在最受关注的英中(英语翻译至中文)语向上,Marco-MT超越了包括Gemini 2.5 Pro、GPT-4.1、Claude 4和Mistral-Medium在内的所有顶尖闭源AI系统,成功登顶榜首。

WMT的人工评测被视为机器翻译领域的"黄金标准"。此次夺冠标志着Marco-MT已从电商行业翻译的专业领域,成功迈入通用翻译的全球领先行列。在包括英译中在内的多个语向上,Marco-MT的表现甚至超过了人工翻译的水平。

鏖战顶级赛道:20B模型限制下的胜利

作为全球机器翻译领域的顶级赛事,WMT2025吸引了众多全球主流模型同台竞技,包括Gemini 2.5 Pro、GPT-4.1等闭源模型,以及DeepSeek-V3、Qwen3-235B等领先的开源模型。

阿里国际的Marco-MT模型参加的是WMT竞赛中难度更高的受限赛道 (restricted track)

与非受限赛道相比,受限赛道对参赛模型的要求极为严苛:

  1. 内容多样性:模型必须能处理文学、新闻、社交媒体等多样化的翻译内容。
  2. 资源限制:严格遵守仅使用开源数据和开源模型进行训练。
  3. 规模限制:模型参数规模不得超过20B。

成功秘诀:M2PO与强化学习

Marco-MT此次能够脱颖而出,关键在于将团队丰富的电商翻译模型训练经验与一套原创的训练方法**M2PO(多阶段偏好优化)**相结合,成功将强化学习范式应用于大模型翻译领域。

该系统的训练分为三个关键步骤来提升翻译质量:

  1. SFT微调:首先通过两轮监督微调(Supervised Fine-tuning)来拓宽模型的基础知识面。
  2. 强化学习:接着引入强化学习,让模型学会自主判断译文的优劣。
  3. 解码优化:最后,在解码阶段融合词对齐(word alignment)与重排序(re-ranking)技术,在保证译文流畅性的同时,精准还原原文的含义,显著提升了翻译的准确性和忠实度。

从电商到通用:厚积薄发

WMT被誉为机器翻译领域的"风向标",本届赛事采用自动指标(如COMET、LLM Judge)与大规模人工评测相结合的机制,最终排名完全以人工评分为准。Marco-MT在13个核心语向上的优异表现,标志着其通用翻译能力获得了业界的广泛认可。

据了解,Marco-MT发布于2024年,最初专注于电商场景翻译,已全面接入阿里国际旗下的电商平台,支持搜索、商品信息、对话、图片等多种场景的翻译。

长期处理跨文化、多语种的复杂业务需求,使其具备了高质量、低幻觉率等核心优势,为此次向通用翻译领域的拓展打下了坚实的基础。此前,Marco-MT已在语音翻译领域崭露头角,在2025年IWSLT国际赛事中斩获2项冠军和2项亚军,展现了其在机器翻译领域的多模态竞争力。

目前,此次比赛的模型已经开源,公众可在Hugging Face了解技术详情或在线体验翻译。

近日,2025年国际机器翻译大赛(WMT, Conference on Machine Translation)公布了最终排名。阿里国际AI Business的翻译大模型Marco-MT-Algharb在本次大赛中表现出色,斩获6项冠军、4项亚军和2项季军。

尤为引人注目的是,在最受关注的英中(英语翻译至中文)语向上,Marco-MT超越了包括Gemini 2.5 Pro、GPT-4.1、Claude 4和Mistral-Medium在内的所有顶尖闭源AI系统,成功登顶榜首。

WMT的人工评测被视为机器翻译领域的"黄金标准"。此次夺冠标志着Marco-MT已从电商行业翻译的专业领域,成功迈入通用翻译的全球领先行列。在包括英译中在内的多个语向上,Marco-MT的表现甚至超过了人工翻译的水平。

鏖战顶级赛道:20B模型限制下的胜利

作为全球机器翻译领域的顶级赛事,WMT2025吸引了众多全球主流模型同台竞技,包括Gemini 2.5 Pro、GPT-4.1等闭源模型,以及DeepSeek-V3、Qwen3-235B等领先的开源模型。

阿里国际的Marco-MT模型参加的是WMT竞赛中难度更高的受限赛道 (restricted track)

与非受限赛道相比,受限赛道对参赛模型的要求极为严苛:

  1. 内容多样性:模型必须能处理文学、新闻、社交媒体等多样化的翻译内容。
  2. 资源限制:严格遵守仅使用开源数据和开源模型进行训练。
  3. 规模限制:模型参数规模不得超过20B。

成功秘诀:M2PO与强化学习

Marco-MT此次能够脱颖而出,关键在于将团队丰富的电商翻译模型训练经验与一套原创的训练方法**M2PO(多阶段偏好优化)**相结合,成功将强化学习范式应用于大模型翻译领域。

该系统的训练分为三个关键步骤来提升翻译质量:

  1. SFT微调:首先通过两轮监督微调(Supervised Fine-tuning)来拓宽模型的基础知识面。
  2. 强化学习:接着引入强化学习,让模型学会自主判断译文的优劣。
  3. 解码优化:最后,在解码阶段融合词对齐(word alignment)与重排序(re-ranking)技术,在保证译文流畅性的同时,精准还原原文的含义,显著提升了翻译的准确性和忠实度。

从电商到通用:厚积薄发

WMT被誉为机器翻译领域的"风向标",本届赛事采用自动指标(如COMET、LLM Judge)与大规模人工评测相结合的机制,最终排名完全以人工评分为准。Marco-MT在13个核心语向上的优异表现,标志着其通用翻译能力获得了业界的广泛认可。

据了解,Marco-MT发布于2024年,最初专注于电商场景翻译,已全面接入阿里国际旗下的电商平台,支持搜索、商品信息、对话、图片等多种场景的翻译。

长期处理跨文化、多语种的复杂业务需求,使其具备了高质量、低幻觉率等核心优势,为此次向通用翻译领域的拓展打下了坚实的基础。此前,Marco-MT已在语音翻译领域崭露头角,在2025年IWSLT国际赛事中斩获2项冠军和2项亚军,展现了其在机器翻译领域的多模态竞争力。

目前,此次比赛的模型已经开源,公众可在Hugging Face了解技术详情或在线体验翻译。

相关推荐
@小匠4 小时前
Read Frog:一款开源的 AI 驱动浏览器语言学习扩展
人工智能·学习
网教盟人才服务平台7 小时前
“方班预备班盾立方人才培养计划”正式启动!
大数据·人工智能
芯智工坊7 小时前
第15章 Mosquitto生产环境部署实践
人工智能·mqtt·开源
菜菜艾7 小时前
基于llama.cpp部署私有大模型
linux·运维·服务器·人工智能·ai·云计算·ai编程
TDengine (老段)7 小时前
TDengine IDMP 可视化 —— 分享
大数据·数据库·人工智能·时序数据库·tdengine·涛思数据·时序数据
小真zzz7 小时前
搜极星:第三方多平台中立GEO洞察专家全面解析
人工智能·搜索引擎·seo·geo·中立·第三方平台
GreenTea8 小时前
从 Claw-Code 看 AI 驱动的大型项目开发:2 人 + 10 个自治 Agent 如何产出 48K 行 Rust 代码
前端·人工智能·后端
火山引擎开发者社区8 小时前
秒级创建实例,火山引擎 Milvus Serverless 让 AI Agent 开发更快更省
人工智能
冬奇Lab8 小时前
一天一个开源项目(第72篇):everything-claude-code - 最系统化的 Claude Code 增强框架
人工智能·开源·资讯