草稿纸1106

我继续在学习《ML Lecture 23-1: Deep Reinforcement Learning by Hung-yi Lee》中的视频教程https://youtu.be/W8XF3ME8G2I?si=zEQ3qj_iXzZZ-n85,其中提到:

"""
Gradient Ascent θ new ← θ old + η ∇ R ˉ θ old = ∑ t = 1 T ∇ log ⁡ p ( a t ∣ s t , θ ) ∇ R ˉ θ ≈ 1 N ∑ n = 1 N R ( τ n ) ∇ log ⁡ P ( τ n ∣ θ ) = 1 N ∑ n = 1 N R ( τ n ) ∑ t = 1 T n ∇ log ⁡ p ( a t n ∣ s t n , θ ) = 1 N ∑ n = 1 N ∑ t = 1 T n R ( τ o n ) ∇ log ⁡ ‾ p ( a t n ∣ s t n , θ ) \begin{aligned} & \begin{array}{l} \text { Gradient Ascent } \\ \theta^{\text {new }} \leftarrow \theta^{\text {old }}+\eta \nabla \bar{R}{\theta^{\text {old }}} \end{array} \quad=\sum{t=1}^T \nabla \log p\left(a_t \mid s_t, \theta\right) \\ & \nabla \bar{R}\theta \approx \frac{1}{N} \sum{n=1}^N R\left(\tau^n\right) \nabla \log P\left(\tau^n \mid \theta\right)=\frac{1}{N} \sum_{n=1}^N R\left(\tau^n\right) \sum_{t=1}^{T_n} \nabla \log p\left(a_t^n \mid s_t^n, \theta\right) \\ & =\frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} R\left(\tau_o^n\right) \nabla \underline{\log } p\left(a_t^n \mid s_t^n, \theta\right) \\ & \end{aligned} Gradient Ascent θnew ←θold +η∇Rˉθold =t=1∑T∇logp(at∣st,θ)∇Rˉθ≈N1n=1∑NR(τn)∇logP(τn∣θ)=N1n=1∑NR(τn)t=1∑Tn∇logp(atn∣stn,θ)=N1n=1∑Nt=1∑TnR(τon)∇logp(atn∣stn,θ)

"""

"这里的 Gradient Ascent 的微分是很符合人类直觉的, R ( τ n ) R\left(\tau^n\right) R(τn)为正则会提升获得此次胜利的过程中采取的每一次动作的概率;而 R ( τ n ) R\left(\tau^n\right) R(τn)为负,则会降低这些动作出现的概率",请问,这种说法正确吗

相关推荐
Power20246665 小时前
NLP论文速读|LongReward:基于AI反馈来提升长上下文大语言模型
人工智能·深度学习·机器学习·自然语言处理·nlp
数据猎手小k5 小时前
AndroidLab:一个系统化的Android代理框架,包含操作环境和可复现的基准测试,支持大型语言模型和多模态模型。
android·人工智能·机器学习·语言模型
sp_fyf_20246 小时前
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-01
人工智能·深度学习·神经网络·算法·机器学习·语言模型·数据挖掘
知来者逆6 小时前
研究大语言模型在心理保健智能顾问的有效性和挑战
人工智能·神经网络·机器学习·语言模型·自然语言处理
老艾的AI世界7 小时前
新一代AI换脸更自然,DeepLiveCam下载介绍(可直播)
图像处理·人工智能·深度学习·神经网络·目标检测·机器学习·ai换脸·视频换脸·直播换脸·图片换脸
Chef_Chen8 小时前
从0开始学习机器学习--Day14--如何优化神经网络的代价函数
神经网络·学习·机器学习
AI街潜水的八角9 小时前
基于C++的决策树C4.5机器学习算法(不调包)
c++·算法·决策树·机器学习
喵~来学编程啦9 小时前
【论文精读】LPT: Long-tailed prompt tuning for image classification
人工智能·深度学习·机器学习·计算机视觉·论文笔记
Chef_Chen11 小时前
从0开始学习机器学习--Day13--神经网络如何处理复杂非线性函数
神经网络·学习·机器学习
Troc_wangpeng11 小时前
R language 关于二维平面直角坐标系的制作
开发语言·机器学习