技术栈

lrm

缘友一世
4 小时前
llm·gspo·大模型强化学习·lrm
Qwen GSPO算法的深入学习和理解GRPO 的局限:Token 级粒度的噪声问题,裁剪机制可能放大噪声。GRPO 依然沿用 Token 级别的更新粒度:
我是有底线的