阿里推理模型一战封神!32B 硬刚 671B DeepSeek,1/10 成本,苹果笔记本可跑

起猛了,Qwen 发布最新 32B 推理模型,跑分不输 671B 的满血版 DeepSeek R1。

都是杭州团队,要不要这么卷。

QwQ-32B,基于 Qwen2.5-32B + 强化学习炼成。

之后还将与 Agent 相关的功能集成到推理模型中:

可以在调用工具的同时进行进行批判性思考,并根据环境反馈调整其思考过程。

QwQ-32B 的权重以 Apache 2.0 许可证开源,并且可以通过 Qwen Chat 在线体验。

手快的网友直接就是一个本地部署在 m4max 芯片苹果笔记本上。

也有网友连夜 at 各大第三方 API 托管方,赶紧起来干活了。

32B 不输 DeepSeek R1

目前 QwQ-32B 还未放出完整技术报告,官方发布页面对强化学习方法做了简短说明:

从一个冷启动检查点开始,实施了由 Outcome Based Reward 驱动的强化学习(RL)扩展方法。

在初始阶段专门针对数学和编码任务扩展强化学习,没有依赖传统的奖励模型,而是使用一个数学问题准确性验证器来确保最终解决方案的正确性,并使用一个代码执行服务器来评估生成的代码是否成功通过预定义的测试用例。

随着训练轮次的推进,两个领域的性能都呈现持续提升。

在第一阶段之后,为通用能力增加了另一阶段的强化学习,它使用来自通用奖励模型的奖励和一些基于规则的验证器进行训练。

团队发现,这一阶段少量步骤的强化学习训练可以提高其他通用能力的性能,如遵循指令、符合人类偏好以及智能体性能,同时在数学和编码方面不会出现显著的性能下降。

此外在 ModelScope 页面,还可以看出 QwQ 32B 是一个密集模型,没有用到 MoE,上下文长度有 131k。

对此,有亚马逊工程师评价不用 MoE 架构的 32B 模型,意味着可以在单台机器上高效运行。

DeepSeek 没有问题,很强大,但要托管他且盈利需要一个大型集群,还需要使用 DeepSeek 最近开源的一系列通信库。

...... 另一方面 QwQ 32B 可以减少由流水线并行、专家并行带来的复杂性。

如果将 QwQ 32B 添加到代码能力与输出 token 成本的图表中,可以看到它以约 1/10 的成本达到了 DeepSeek-R1 与 o3-mini-high 之间的性能。

在线体验:

chat.qwen.ai
huggingface.co/spaces/Qwen...

参考链接:

1\][qwenlm.github.io/blog/qwq-32...](https://link.juejin.cn?target=https%3A%2F%2Fqwenlm.github.io%2Fblog%2Fqwq-32b%2F "https://qwenlm.github.io/blog/qwq-32b/") \[2\][x.com/Alibaba_Qwe...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2FAlibaba_Qwen%2Fstatus%2F1897366093376991515 "https://x.com/Alibaba_Qwen/status/1897366093376991515") --- **完** ---

相关推荐
啥都鼓捣的小yao20 分钟前
实战5:Python使用循环神经网络生成诗歌
开发语言·人工智能·python·rnn·深度学习
机器之心39 分钟前
刚刚,OpenAI发布最强推理模型o3!图像深度思考首秀,开源编程智能体已揽5k+star
人工智能·chatgpt
Blossom.11840 分钟前
重新定义“边缘”:边缘计算如何重塑人类与数据的关系
人工智能·深度学习·机器学习·智能合约·边缘计算·sklearn·多模态融合
小陈爱建模1 小时前
【已更新完毕】2025泰迪杯数据挖掘竞赛B题数学建模思路代码文章教学:基于穿戴装备的身体活动监测
人工智能·数学建模·数据挖掘
TGITCIC1 小时前
解码未来:大语言模型训练与推理的双螺旋进化之路
人工智能·语言模型·自然语言处理·大模型训练·大模型推理·推理训练
罗政1 小时前
AI工具箱源码+成品网站源码+springboot+vue
vue.js·人工智能·spring boot
_一条咸鱼_1 小时前
探秘神经网络激活函数
人工智能·深度学习·面试
星鹿XINGLOO1 小时前
ChatGPT语音功能在iPad上支持吗?全面解答!
人工智能·安全·ios·ai·chatgpt·语音识别·ipad
娃娃略1 小时前
【AI模型学习】Moco(下)——巧妙的队列设计
人工智能·python·神经网络·学习·算法·机器学习
jndingxin1 小时前
OpenCV 图形API(37)图像滤波-----分离过滤器函数sepFilter()
人工智能·opencv·计算机视觉