草稿纸1106

我继续在学习《ML Lecture 23-1: Deep Reinforcement Learning by Hung-yi Lee》中的视频教程https://youtu.be/W8XF3ME8G2I?si=zEQ3qj_iXzZZ-n85,其中提到:

"""
Gradient Ascent θ new ← θ old + η ∇ R ˉ θ old = ∑ t = 1 T ∇ log ⁡ p ( a t ∣ s t , θ ) ∇ R ˉ θ ≈ 1 N ∑ n = 1 N R ( τ n ) ∇ log ⁡ P ( τ n ∣ θ ) = 1 N ∑ n = 1 N R ( τ n ) ∑ t = 1 T n ∇ log ⁡ p ( a t n ∣ s t n , θ ) = 1 N ∑ n = 1 N ∑ t = 1 T n R ( τ o n ) ∇ log ⁡ ‾ p ( a t n ∣ s t n , θ ) \begin{aligned} & \begin{array}{l} \text { Gradient Ascent } \\ \theta^{\text {new }} \leftarrow \theta^{\text {old }}+\eta \nabla \bar{R}{\theta^{\text {old }}} \end{array} \quad=\sum{t=1}^T \nabla \log p\left(a_t \mid s_t, \theta\right) \\ & \nabla \bar{R}\theta \approx \frac{1}{N} \sum{n=1}^N R\left(\tau^n\right) \nabla \log P\left(\tau^n \mid \theta\right)=\frac{1}{N} \sum_{n=1}^N R\left(\tau^n\right) \sum_{t=1}^{T_n} \nabla \log p\left(a_t^n \mid s_t^n, \theta\right) \\ & =\frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} R\left(\tau_o^n\right) \nabla \underline{\log } p\left(a_t^n \mid s_t^n, \theta\right) \\ & \end{aligned} Gradient Ascent θnew ←θold +η∇Rˉθold =t=1∑T∇logp(at∣st,θ)∇Rˉθ≈N1n=1∑NR(τn)∇logP(τn∣θ)=N1n=1∑NR(τn)t=1∑Tn∇logp(atn∣stn,θ)=N1n=1∑Nt=1∑TnR(τon)∇logp(atn∣stn,θ)

"""

"这里的 Gradient Ascent 的微分是很符合人类直觉的, R ( τ n ) R\left(\tau^n\right) R(τn)为正则会提升获得此次胜利的过程中采取的每一次动作的概率;而 R ( τ n ) R\left(\tau^n\right) R(τn)为负,则会降低这些动作出现的概率",请问,这种说法正确吗

相关推荐
明月看潮生3 小时前
青少年编程与数学 02-015 大学数学知识点 03课题、概率论和数理统计
青少年编程·概率论·数理统计·编程与数学·大学数学
Blossom.1185 小时前
量子计算与经典计算的融合与未来
人工智能·深度学习·机器学习·计算机视觉·量子计算
硅谷秋水5 小时前
MoLe-VLA:通过混合层实现的动态跳层视觉-语言-动作模型实现高效机器人操作
人工智能·深度学习·机器学习·计算机视觉·语言模型·机器人
小李独爱秋7 小时前
机器学习开发全流程详解:从数据到部署的完整指南
人工智能·机器学习
Dovis(誓平步青云)7 小时前
深挖 DeepSeek 隐藏玩法·智能炼金术2.0版本
人工智能·深度学习·机器学习·数据挖掘·服务发现·智慧城市
ZTLJQ7 小时前
基于机器学习的三国时期诸葛亮北伐失败因素量化分析
人工智能·算法·机器学习
赵钰老师7 小时前
【Deepseek、ChatGPT】智能气候前沿:AI Agent结合机器学习与深度学习在全球气候变化驱动因素预测中的应用
人工智能·python·深度学习·机器学习·数据分析
nuise_8 小时前
李宏毅机器学习笔记06 | 鱼和熊掌可以兼得的机器学习 - 内容接宝可梦
人工智能·笔记·机器学习
databook9 小时前
线性模型与多分类问题:简单高效的力量
python·机器学习·scikit-learn
就决定是你啦!15 小时前
机器学习 第一章 绪论
人工智能·深度学习·机器学习