通义灵码上新推理模型,快来体验数学编程双冠王 Qwen2.5-Max

近日,通义灵码上新模型选择功能,除新增 DeepSeek 满血版 V3 和 R1 外,Qwen2.5-Max 也正式上线, 它使用了超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练。

在通义灵码智能问答、AI 程序员窗口的输入框中,单击模型选择的下拉菜单即可选择所需模型。

将 Qwen2.5-Max 与业界领先的模型(无论是闭源还是开源)在一系列广受关注的基准测试上进行了对比评估,评估结果涵盖了基座模型和指令模型的性能得分。

首先,通义千问直接对比了指令模型的性能表现。指令模型即我们平常使用的可以直接对话的模型。通义千问将 Qwen2.5-Max 与业界领先的模型(包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet)的性能结果进行了对比。

image.png

在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基准测试中,Qwen2.5-Max 的表现领先。同时在 MMLU-Pro 等其他评估中也展现出了极具竞争力的成绩。

在基座模型的对比中,由于无法访问 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型的基座模型,通义千问将 Qwen2.5-Max 与目前领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B,以及同样位列开源稠密模型前列的 Qwen2.5-72B 进行了对比。

对比结果如下图所示:

image.png

通义千问的基座模型在大多数基准测试中都展现出了显著的优势。

欢迎大家下载通义灵码插件,体验 Qwen2.5-Max 强大的编程能力!lingma.aliyun.com/lingma/down...

相关推荐
阿水实证通5 分钟前
Stata如何做机器学习?——SHAP解释框架下的足球运动员价值驱动因素识别:基于H2O集成学习模型
人工智能·机器学习·集成学习
新智元8 分钟前
图灵奖大佬向 97 年小孩哥汇报?小扎 1 亿年薪买新贵,老将痛诉熬夜捡 GPU!
人工智能·openai
真智AI9 分钟前
AI智能体时代来临:数据分析的变革与自动化之路
人工智能·数据分析·自动化
非ban必选11 分钟前
spring-ai-alibaba官方 Playground 示例
java·人工智能·spring
新智元20 分钟前
刚刚,Ilya 官宣出任 SSI CEO!送走「叛徒」联创,豪言不缺 GPU
人工智能·openai
爱看科技1 小时前
苹果AR/VR头显路线图曝光,微美全息推进AI/AR智能眼镜新品开启视觉体验篇章
人工智能·ar·vr
呆头鹅AI工作室1 小时前
[2025CVPR]SEEN-DA:基于语义熵引导的领域感知注意力机制
人工智能·深度学习·机器学习
吴佳浩1 小时前
Python入门指南-AI番外-MCP完整教程:从零开始学会Model Context Protocol
人工智能·python·mcp
加油吧zkf1 小时前
目标检测新纪元:DETR到Mamba实战解析
图像处理·人工智能·python·目标检测·分类
西柚小萌新1 小时前
【深度学习:进阶篇】--4.3.seq2seq与Attention机制
人工智能·深度学习