技术栈

experiments

爱听歌的周童鞋
11 小时前
llm·policy gradient·assignment·grpo·cs336·experiments
斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Assignment 5: GRPO本篇文章记录 CS336 作业 Assignment 5: Alignment 中的 GRPO 作业要求,仅供自己参考😄
我是有底线的