技术栈
experiments
爱听歌的周童鞋
11 小时前
llm
·
policy gradient
·
assignment
·
grpo
·
cs336
·
experiments
斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Assignment 5: GRPO
本篇文章记录 CS336 作业 Assignment 5: Alignment 中的 GRPO 作业要求,仅供自己参考😄
我是有底线的