技术栈

gspo

山顶夕景
5 小时前
llm·强化学习·rlhf·gspo
【LLM-RL】GSPO算法Group Sequence Policy Optimization论文标题:Group Sequence Policy Optimization 论文链接:https://huggingface.co/papers/2507.18071 博客链接:https://qwenlm.github.io/blog/gspo/
我是有底线的