技术栈
大模型强化学习
缘友一世
4 小时前
llm
·
gspo
·
大模型强化学习
·
lrm
Qwen GSPO算法的深入学习和理解
GRPO 的局限:Token 级粒度的噪声问题,裁剪机制可能放大噪声。GRPO 依然沿用 Token 级别的更新粒度:
我是有底线的