技术栈

policy gradient

爱听歌的周童鞋
11 天前
llm·policy gradient·grpo·cs336·baselines·advantage funcs
斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Lecture 17: Alignment - RL 2学习斯坦福的 CS336 课程,本篇文章记录课程第十七讲:对齐 - RL(下),记录下个人学习笔记,仅供自己参考😄
红烧code
2 年前
强化学习·policy gradient·actor-critic
VPG算法首先来看经典的策略梯度REINFORCE算法:在REINFORCE中,每次采集一个episode的轨迹,计算每一步动作的回报 G t G_t Gt,与动作概率对数相乘,作为误差反向传播,有以下几个特点:
我是有底线的