技术栈
policy gradient
d3y1
14 天前
人工智能
·
机器学习
·
策略梯度
·
policy gradient
机器学习之策略梯度
策略梯度(Policy Gradient)方法是强化学习中的一类重要算法,其核心思想是直接对策略参数进行优化,而不是通过值函数间接优化策略。与基于值的方法(如Q-Learning、DQN)不同,策略梯度方法可以直接处理连续动作空间,并且能够学习随机策略。
爱听歌的周童鞋
1 个月前
llm
·
policy gradient
·
assignment
·
grpo
·
cs336
·
experiments
斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Assignment 5: GRPO
本篇文章记录 CS336 作业 Assignment 5: Alignment 中的 GRPO 作业要求,仅供自己参考😄
爱听歌的周童鞋
3 个月前
llm
·
policy gradient
·
grpo
·
cs336
·
baselines
·
advantage funcs
斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Lecture 17: Alignment - RL 2
学习斯坦福的 CS336 课程,本篇文章记录课程第十七讲:对齐 - RL(下),记录下个人学习笔记,仅供自己参考😄
红烧code
3 年前
强化学习
·
policy gradient
·
actor-critic
VPG算法
首先来看经典的策略梯度REINFORCE算法:在REINFORCE中,每次采集一个episode的轨迹,计算每一步动作的回报 G t G_t Gt,与动作概率对数相乘,作为误差反向传播,有以下几个特点:
我是有底线的