草稿纸1106

我继续在学习《ML Lecture 23-1: Deep Reinforcement Learning by Hung-yi Lee》中的视频教程https://youtu.be/W8XF3ME8G2I?si=zEQ3qj_iXzZZ-n85,其中提到:

"""
Gradient Ascent θ new ← θ old + η ∇ R ˉ θ old = ∑ t = 1 T ∇ log ⁡ p ( a t ∣ s t , θ ) ∇ R ˉ θ ≈ 1 N ∑ n = 1 N R ( τ n ) ∇ log ⁡ P ( τ n ∣ θ ) = 1 N ∑ n = 1 N R ( τ n ) ∑ t = 1 T n ∇ log ⁡ p ( a t n ∣ s t n , θ ) = 1 N ∑ n = 1 N ∑ t = 1 T n R ( τ o n ) ∇ log ⁡ ‾ p ( a t n ∣ s t n , θ ) \begin{aligned} & \begin{array}{l} \text { Gradient Ascent } \\ \theta^{\text {new }} \leftarrow \theta^{\text {old }}+\eta \nabla \bar{R}{\theta^{\text {old }}} \end{array} \quad=\sum{t=1}^T \nabla \log p\left(a_t \mid s_t, \theta\right) \\ & \nabla \bar{R}\theta \approx \frac{1}{N} \sum{n=1}^N R\left(\tau^n\right) \nabla \log P\left(\tau^n \mid \theta\right)=\frac{1}{N} \sum_{n=1}^N R\left(\tau^n\right) \sum_{t=1}^{T_n} \nabla \log p\left(a_t^n \mid s_t^n, \theta\right) \\ & =\frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} R\left(\tau_o^n\right) \nabla \underline{\log } p\left(a_t^n \mid s_t^n, \theta\right) \\ & \end{aligned} Gradient Ascent θnew ←θold +η∇Rˉθold =t=1∑T∇logp(at∣st,θ)∇Rˉθ≈N1n=1∑NR(τn)∇logP(τn∣θ)=N1n=1∑NR(τn)t=1∑Tn∇logp(atn∣stn,θ)=N1n=1∑Nt=1∑TnR(τon)∇logp(atn∣stn,θ)

"""

"这里的 Gradient Ascent 的微分是很符合人类直觉的, R ( τ n ) R\left(\tau^n\right) R(τn)为正则会提升获得此次胜利的过程中采取的每一次动作的概率;而 R ( τ n ) R\left(\tau^n\right) R(τn)为负,则会降低这些动作出现的概率",请问,这种说法正确吗

相关推荐
孤狼灬笑19 分钟前
机器学习十大经典算法解析与对比
人工智能·算法·机器学习
星际棋手25 分钟前
【AI】一文说清楚神经网络、机器学习、专家系统
人工智能·神经网络·机器学习
教练、我想打篮球1 小时前
13 pyflink/scala 进行 csv 文件的批处理
人工智能·机器学习
武子康2 小时前
AI-调查研究-106-具身智能 机器人学习数据采集工具和手段:传感器、API、遥操作、仿真与真人示教全流程
人工智能·深度学习·机器学习·ai·系统架构·机器人·具身智能
武子康3 小时前
AI-调查研究-107-具身智能 强化学习与机器人训练数据格式解析:从状态-动作对到多模态轨迹标准
人工智能·深度学习·机器学习·ai·系统架构·机器人·具身智能
大千AI助手4 小时前
加权分位数直方图:提升机器学习效能的关键技术
人工智能·机器学习·xgboost·直方图·加权直方图·特征分裂
AI数据皮皮侠5 小时前
中国博物馆数据
大数据·人工智能·python·深度学习·机器学习
强哥之神5 小时前
从零理解 KV Cache:大语言模型推理加速的核心机制
人工智能·深度学习·机器学习·语言模型·llm·kvcache
张晓~183399481215 小时前
碰一碰发视频 系统源码 /PHP 语言开发方案
开发语言·线性代数·矩阵·aigc·php·音视频·文心一言
Q26433650236 小时前
【有源码】基于Python与Spark的火锅店数据可视化分析系统-基于机器学习的火锅店综合竞争力评估与可视化分析-基于用户画像聚类的火锅店市场细分与可视化研究
大数据·hadoop·python·机器学习·数据分析·spark·毕业设计