通义灵码上新推理模型,快来体验数学编程双冠王 Qwen2.5-Max

近日,通义灵码上新模型选择功能,除新增 DeepSeek 满血版 V3 和 R1 外,Qwen2.5-Max 也正式上线, 它使用了超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练。

在通义灵码智能问答、AI 程序员窗口的输入框中,单击模型选择的下拉菜单即可选择所需模型。

将 Qwen2.5-Max 与业界领先的模型(无论是闭源还是开源)在一系列广受关注的基准测试上进行了对比评估,评估结果涵盖了基座模型和指令模型的性能得分。

首先,通义千问直接对比了指令模型的性能表现。指令模型即我们平常使用的可以直接对话的模型。通义千问将 Qwen2.5-Max 与业界领先的模型(包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet)的性能结果进行了对比。

image.png

在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基准测试中,Qwen2.5-Max 的表现领先。同时在 MMLU-Pro 等其他评估中也展现出了极具竞争力的成绩。

在基座模型的对比中,由于无法访问 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型的基座模型,通义千问将 Qwen2.5-Max 与目前领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B,以及同样位列开源稠密模型前列的 Qwen2.5-72B 进行了对比。

对比结果如下图所示:

image.png

通义千问的基座模型在大多数基准测试中都展现出了显著的优势。

欢迎大家下载通义灵码插件,体验 Qwen2.5-Max 强大的编程能力!lingma.aliyun.com/lingma/down...

相关推荐
OPEN-Source2 分钟前
开源工具轻松实现高清视频修复
人工智能·视频处理
EW Frontier2 分钟前
【ISAC+抗干扰+信号识别】5G ISAC+深度学习!破解智能交通“自干扰”难题,V2X通信准确率近100%【附代码】
人工智能·深度学习·5g·调制识别·抗干扰·isac
QUDONG_biubiubiu3 分钟前
DeepSeek推出OCR 2模型!瞄准高难度文档识别
人工智能·深度学习·deepseek·deepseek-ocr 2
szcsun53 分钟前
机器学习(四)--无监督学习
人工智能·学习·机器学习
泰迪智能科技5 分钟前
师资培训分享丨大模型与智能体教学应用实战线下广州班莅临泰迪智能科技参观调研
人工智能·科技
小程故事多_8011 分钟前
RAG分块天花板?LGMGC多粒度语义分块策略深度解析与实践思考
人工智能·aigc
zhangfeng113321 分钟前
deepseek部署和训练的PyTorch CUDA Transformers Accelerate PEFT稳定版本呢推荐
人工智能·pytorch·python
2501_9479082022 分钟前
范建峰携手安盛投资 助力普惠金融惠及更多民生领域
大数据·人工智能·金融
Bruk.Liu23 分钟前
(LangChain实战5):LangChain消息模版ChatPromptTemplate
人工智能·python·langchain·agent
乾元23 分钟前
暗网情报:自动化采集与情感分析在威胁狩猎中的应用
运维·网络·人工智能·深度学习·安全·架构·自动化