技术栈
grpo
又见阿郎
5 小时前
ai
·
强化学习
·
deepseek
·
grpo
聊聊GRPO算法——从Open R1来看如何训练DeepSeek R1模型
首发自个人公众号:阿郎小哥的随笔驿站DeepSeek R1系列建议阅读之前的系列文章:聊聊DeepSeek R1的一些总结