通义灵码上新推理模型,快来体验数学编程双冠王 Qwen2.5-Max

近日,通义灵码上新模型选择功能,除新增 DeepSeek 满血版 V3 和 R1 外,Qwen2.5-Max 也正式上线, 它使用了超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练。

在通义灵码智能问答、AI 程序员窗口的输入框中,单击模型选择的下拉菜单即可选择所需模型。

将 Qwen2.5-Max 与业界领先的模型(无论是闭源还是开源)在一系列广受关注的基准测试上进行了对比评估,评估结果涵盖了基座模型和指令模型的性能得分。

首先,通义千问直接对比了指令模型的性能表现。指令模型即我们平常使用的可以直接对话的模型。通义千问将 Qwen2.5-Max 与业界领先的模型(包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet)的性能结果进行了对比。

image.png

在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基准测试中,Qwen2.5-Max 的表现领先。同时在 MMLU-Pro 等其他评估中也展现出了极具竞争力的成绩。

在基座模型的对比中,由于无法访问 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型的基座模型,通义千问将 Qwen2.5-Max 与目前领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B,以及同样位列开源稠密模型前列的 Qwen2.5-72B 进行了对比。

对比结果如下图所示:

image.png

通义千问的基座模型在大多数基准测试中都展现出了显著的优势。

欢迎大家下载通义灵码插件,体验 Qwen2.5-Max 强大的编程能力!lingma.aliyun.com/lingma/down...

相关推荐
车载诊断技术5 小时前
人工智能AI在汽车设计领域的应用探索
数据库·人工智能·网络协议·架构·汽车·是诊断功能配置的核心
AuGuSt_816 小时前
【深度学习】Hopfield网络:模拟联想记忆
人工智能·深度学习
jndingxin6 小时前
OpenCV计算摄影学(6)高动态范围成像(HDR imaging)
人工智能·opencv·计算机视觉
Sol-itude7 小时前
【文献阅读】Collective Decision for Open Set Recognition
论文阅读·人工智能·机器学习·支持向量机
没事偷着乐琅8 小时前
人工智能 pytorch篇
人工智能·pytorch·python
邪恶的贝利亚8 小时前
Pytorch常用函数
人工智能·pytorch·python
Ironben8 小时前
看好 MCP,但用不了 Claude,所以做了一款 MCP 客户端
人工智能·claude·mcp
佛州小李哥8 小时前
构建逻辑思维链(CoT)为金融AI消除幻觉(保险赔付篇)
人工智能·科技·ai·金融·云计算·aws·亚马逊云科技
xilu08 小时前
MCP与RAG:增强大型语言模型的两种路径
人工智能·llm·mcp
阿正的梦工坊9 小时前
PyTorch 中的 nn.ModuleList 是什么?与普通列表有啥区别?
人工智能·pytorch·python