技术栈
gspo
山顶夕景
5 小时前
llm
·
强化学习
·
rlhf
·
gspo
【LLM-RL】GSPO算法Group Sequence Policy Optimization
论文标题:Group Sequence Policy Optimization 论文链接:https://huggingface.co/papers/2507.18071 博客链接:https://qwenlm.github.io/blog/gspo/
我是有底线的