阿里国际AI翻译模型Marco霸榜WMT,英中赛道超越GPT-4.1与Gem

阿里国际AI翻译模型Marco霸榜WMT,英中赛道超越GPT-4.1与Gemini 2.5 Pro

近日,2025年国际机器翻译大赛(WMT, Conference on Machine Translation)公布了最终排名。阿里国际AI Business的翻译大模型Marco-MT-Algharb在本次大赛中表现出色,斩获6项冠军、4项亚军和2项季军。

尤为引人注目的是,在最受关注的英中(英语翻译至中文)语向上,Marco-MT超越了包括Gemini 2.5 Pro、GPT-4.1、Claude 4和Mistral-Medium在内的所有顶尖闭源AI系统,成功登顶榜首。

WMT的人工评测被视为机器翻译领域的"黄金标准"。此次夺冠标志着Marco-MT已从电商行业翻译的专业领域,成功迈入通用翻译的全球领先行列。在包括英译中在内的多个语向上,Marco-MT的表现甚至超过了人工翻译的水平。

鏖战顶级赛道:20B模型限制下的胜利

作为全球机器翻译领域的顶级赛事,WMT2025吸引了众多全球主流模型同台竞技,包括Gemini 2.5 Pro、GPT-4.1等闭源模型,以及DeepSeek-V3、Qwen3-235B等领先的开源模型。

阿里国际的Marco-MT模型参加的是WMT竞赛中难度更高的受限赛道 (restricted track)

与非受限赛道相比,受限赛道对参赛模型的要求极为严苛:

  1. 内容多样性:模型必须能处理文学、新闻、社交媒体等多样化的翻译内容。
  2. 资源限制:严格遵守仅使用开源数据和开源模型进行训练。
  3. 规模限制:模型参数规模不得超过20B。

成功秘诀:M2PO与强化学习

Marco-MT此次能够脱颖而出,关键在于将团队丰富的电商翻译模型训练经验与一套原创的训练方法**M2PO(多阶段偏好优化)**相结合,成功将强化学习范式应用于大模型翻译领域。

该系统的训练分为三个关键步骤来提升翻译质量:

  1. SFT微调:首先通过两轮监督微调(Supervised Fine-tuning)来拓宽模型的基础知识面。
  2. 强化学习:接着引入强化学习,让模型学会自主判断译文的优劣。
  3. 解码优化:最后,在解码阶段融合词对齐(word alignment)与重排序(re-ranking)技术,在保证译文流畅性的同时,精准还原原文的含义,显著提升了翻译的准确性和忠实度。

从电商到通用:厚积薄发

WMT被誉为机器翻译领域的"风向标",本届赛事采用自动指标(如COMET、LLM Judge)与大规模人工评测相结合的机制,最终排名完全以人工评分为准。Marco-MT在13个核心语向上的优异表现,标志着其通用翻译能力获得了业界的广泛认可。

据了解,Marco-MT发布于2024年,最初专注于电商场景翻译,已全面接入阿里国际旗下的电商平台,支持搜索、商品信息、对话、图片等多种场景的翻译。

长期处理跨文化、多语种的复杂业务需求,使其具备了高质量、低幻觉率等核心优势,为此次向通用翻译领域的拓展打下了坚实的基础。此前,Marco-MT已在语音翻译领域崭露头角,在2025年IWSLT国际赛事中斩获2项冠军和2项亚军,展现了其在机器翻译领域的多模态竞争力。

目前,此次比赛的模型已经开源,公众可在Hugging Face了解技术详情或在线体验翻译。

近日,2025年国际机器翻译大赛(WMT, Conference on Machine Translation)公布了最终排名。阿里国际AI Business的翻译大模型Marco-MT-Algharb在本次大赛中表现出色,斩获6项冠军、4项亚军和2项季军。

尤为引人注目的是,在最受关注的英中(英语翻译至中文)语向上,Marco-MT超越了包括Gemini 2.5 Pro、GPT-4.1、Claude 4和Mistral-Medium在内的所有顶尖闭源AI系统,成功登顶榜首。

WMT的人工评测被视为机器翻译领域的"黄金标准"。此次夺冠标志着Marco-MT已从电商行业翻译的专业领域,成功迈入通用翻译的全球领先行列。在包括英译中在内的多个语向上,Marco-MT的表现甚至超过了人工翻译的水平。

鏖战顶级赛道:20B模型限制下的胜利

作为全球机器翻译领域的顶级赛事,WMT2025吸引了众多全球主流模型同台竞技,包括Gemini 2.5 Pro、GPT-4.1等闭源模型,以及DeepSeek-V3、Qwen3-235B等领先的开源模型。

阿里国际的Marco-MT模型参加的是WMT竞赛中难度更高的受限赛道 (restricted track)

与非受限赛道相比,受限赛道对参赛模型的要求极为严苛:

  1. 内容多样性:模型必须能处理文学、新闻、社交媒体等多样化的翻译内容。
  2. 资源限制:严格遵守仅使用开源数据和开源模型进行训练。
  3. 规模限制:模型参数规模不得超过20B。

成功秘诀:M2PO与强化学习

Marco-MT此次能够脱颖而出,关键在于将团队丰富的电商翻译模型训练经验与一套原创的训练方法**M2PO(多阶段偏好优化)**相结合,成功将强化学习范式应用于大模型翻译领域。

该系统的训练分为三个关键步骤来提升翻译质量:

  1. SFT微调:首先通过两轮监督微调(Supervised Fine-tuning)来拓宽模型的基础知识面。
  2. 强化学习:接着引入强化学习,让模型学会自主判断译文的优劣。
  3. 解码优化:最后,在解码阶段融合词对齐(word alignment)与重排序(re-ranking)技术,在保证译文流畅性的同时,精准还原原文的含义,显著提升了翻译的准确性和忠实度。

从电商到通用:厚积薄发

WMT被誉为机器翻译领域的"风向标",本届赛事采用自动指标(如COMET、LLM Judge)与大规模人工评测相结合的机制,最终排名完全以人工评分为准。Marco-MT在13个核心语向上的优异表现,标志着其通用翻译能力获得了业界的广泛认可。

据了解,Marco-MT发布于2024年,最初专注于电商场景翻译,已全面接入阿里国际旗下的电商平台,支持搜索、商品信息、对话、图片等多种场景的翻译。

长期处理跨文化、多语种的复杂业务需求,使其具备了高质量、低幻觉率等核心优势,为此次向通用翻译领域的拓展打下了坚实的基础。此前,Marco-MT已在语音翻译领域崭露头角,在2025年IWSLT国际赛事中斩获2项冠军和2项亚军,展现了其在机器翻译领域的多模态竞争力。

目前,此次比赛的模型已经开源,公众可在Hugging Face了解技术详情或在线体验翻译。

相关推荐
twc82935 分钟前
大模型生成 QA Pairs 提升 RAG 应用测试效率的实践
服务器·数据库·人工智能·windows·rag·大模型测试
宇擎智脑科技37 分钟前
A2A Python SDK 源码架构解读:一个请求是如何被处理的
人工智能·python·架构·a2a
IT_陈寒38 分钟前
Redis缓存击穿:3个鲜为人知的防御策略,90%开发者都忽略了!
前端·人工智能·后端
电商API&Tina1 小时前
【电商API接口】开发者一站式电商API接入说明
大数据·数据库·人工智能·云计算·json
湘美书院--湘美谈教育1 小时前
湘美谈教育湘美书院网文研究:人工智能与微型小说选集
人工智能·深度学习·神经网络·机器学习·ai写作
uzong1 小时前
Harness Engineering 是什么?一场新的 AI 范式已经开始
人工智能·后端·架构
墨有6661 小时前
FieldFormer:基于物理场论的极简AI大模型底层架构,附带源码
人工智能·架构·电磁场算法映射
Mountain and sea2 小时前
从零搭建工业机器人激光切割+焊接产线:KUKA七轴协同+节卡AGV+视觉检测实战复盘
人工智能·机器人·视觉检测
K姐研究社2 小时前
阿里JVS Claw实测 – 手机一键部署 OpenClaw,开箱即用
人工智能·智能手机·aigc·飞书
卷积殉铁子2 小时前
从“手动挡”到“自动驾驶”:OpenClaw如何让AI开发变成“说话就行”
人工智能