通义灵码上新推理模型，快来体验数学编程双冠王 Qwen2.5-Max

阿里巴巴中间件2025-03-03 18:51

近日，通义灵码上新模型选择功能，除新增 DeepSeek 满血版 V3 和 R1 外，Qwen2.5-Max 也正式上线， 它使用了超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练。

在通义灵码智能问答、AI 程序员窗口的输入框中，单击模型选择的下拉菜单即可选择所需模型。

将 Qwen2.5-Max 与业界领先的模型（无论是闭源还是开源）在一系列广受关注的基准测试上进行了对比评估，评估结果涵盖了基座模型和指令模型的性能得分。

首先，通义千问直接对比了指令模型的性能表现。指令模型即我们平常使用的可以直接对话的模型。通义千问将 Qwen2.5-Max 与业界领先的模型（包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet）的性能结果进行了对比。

在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基准测试中，Qwen2.5-Max 的表现领先。同时在 MMLU-Pro 等其他评估中也展现出了极具竞争力的成绩。

在基座模型的对比中，由于无法访问 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型的基座模型，通义千问将 Qwen2.5-Max 与目前领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B，以及同样位列开源稠密模型前列的 Qwen2.5-72B 进行了对比。

对比结果如下图所示：

通义千问的基座模型在大多数基准测试中都展现出了显著的优势。

欢迎大家下载通义灵码插件，体验 Qwen2.5-Max 强大的编程能力！lingma.aliyun.com/lingma/down...