技术栈
推理模型
微凉的衣柜
7 小时前
语言模型
·
推理模型
使用GRPO训练调度事件的语言模型!
参考:https://huggingface.co/blog/anakin87/qwen-scheduler-grpo
PLUS_WAVE
17 天前
学习
·
语言模型
·
大模型
·
cot
·
vlm
·
推理模型
·
reasoning
CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning 学习笔记
当前 VLMs 通过对齐视觉输入和语言输出训练,虽然整体表现好,但在需要细致视觉推理的任务上容易出错,比如无法正确识别图片中的细节内容。这是因为现有模型习惯直接给出结论,而缺乏中间推理步骤。
Nicolas893
2 个月前
大模型
·
强化学习
·
千问
·
r1
·
推理模型
·
32b
【大模型实战篇】vllm本地部署阿里最新的QwQ-32B推理模型以及体验
3月6日凌晨,阿里巴巴发布并开源全新的推理模型通义千问QwQ-32B。通过大规模强化学习,千问QwQ-32B在数学、代码及通用能力上实现提升。在保持性能的同时,千问QwQ-32B还大幅降低部署使用成本,在消费级显卡上也能实现本地部署。