通义灵码上新推理模型,快来体验数学编程双冠王 Qwen2.5-Max

近日,通义灵码上新模型选择功能,除新增 DeepSeek 满血版 V3 和 R1 外,Qwen2.5-Max 也正式上线, 它使用了超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练。

在通义灵码智能问答、AI 程序员窗口的输入框中,单击模型选择的下拉菜单即可选择所需模型。

将 Qwen2.5-Max 与业界领先的模型(无论是闭源还是开源)在一系列广受关注的基准测试上进行了对比评估,评估结果涵盖了基座模型和指令模型的性能得分。

首先,通义千问直接对比了指令模型的性能表现。指令模型即我们平常使用的可以直接对话的模型。通义千问将 Qwen2.5-Max 与业界领先的模型(包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet)的性能结果进行了对比。

image.png

在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基准测试中,Qwen2.5-Max 的表现领先。同时在 MMLU-Pro 等其他评估中也展现出了极具竞争力的成绩。

在基座模型的对比中,由于无法访问 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型的基座模型,通义千问将 Qwen2.5-Max 与目前领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B,以及同样位列开源稠密模型前列的 Qwen2.5-72B 进行了对比。

对比结果如下图所示:

image.png

通义千问的基座模型在大多数基准测试中都展现出了显著的优势。

欢迎大家下载通义灵码插件,体验 Qwen2.5-Max 强大的编程能力!lingma.aliyun.com/lingma/down...

相关推荐
go54631584652 分钟前
Python点阵字生成与优化:从基础实现到高级渲染技术
开发语言·人工智能·python·深度学习·分类·数据挖掘
Coovally AI模型快速验证12 分钟前
避开算力坑!无人机桥梁检测场景下YOLO模型选型指南
人工智能·深度学习·yolo·计算机视觉·目标跟踪·无人机
巫婆理发22238 分钟前
神经网络(第二课第一周)
人工智能·深度学习·神经网络
欧阳小猜1 小时前
OpenCV-图像预处理➁【图像插值方法、边缘填充策略、图像矫正、掩膜应用、水印添加,图像的噪点消除】
人工智能·opencv·计算机视觉
旭日东升的xu.1 小时前
OpenCV(04)梯度处理,边缘检测,绘制轮廓,凸包特征检测,轮廓特征查找
人工智能·opencv·计算机视觉
redreamSo1 小时前
AI Daily | AI日报:Meta百亿抢人,AI数据标注产业升级; 百度全栈自研,AI应用大放异彩; Hinton访华:多模态大模型已有「意识」
程序员·aigc·资讯
liliangcsdn1 小时前
mac测试ollama llamaindex
数据仓库·人工智能·prompt·llama
qyhua1 小时前
Windows 平台源码部署 Dify教程(不依赖 Docker)
人工智能·windows·python
京东云开发者2 小时前
【纯干货】三张图深入分析京东开源Genie的8大亮点
程序员
京东云开发者2 小时前
【手把手】使用JoyAgent-Genie,基于Deepseek模型构建自己的Manus
程序员