技术栈
baselines
爱听歌的周童鞋
4 小时前
llm
·
policy gradient
·
grpo
·
cs336
·
baselines
·
advantage funcs
斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Lecture 17: Alignment - RL 2
学习斯坦福的 CS336 课程,本篇文章记录课程第十七讲:对齐 - RL(下),记录下个人学习笔记,仅供自己参考😄
我是有底线的