PPO算法与DDPG算法的比较

一、PPO算法

1. actor网络

Actor 网络输出在给定状态 s t s_t st下采取每个动作的概率分布,通常使用一个神经网络表示: [ π θ ( a t ∣ s t ) ] [ \pi_\theta(a_t | s_t) ] [πθ(at∣st)].PPO 迭代地更新这个 policy,以改进策略并提高性能。

2. Critic网络

[ V ϕ ( s t ) ] [ V_\phi(s_t) ] [Vϕ(st)]用于估计状态的值函数。Critic 网络的目标是学习一个准确估计的状态值函数,以便计算优势函数(Advantage Function)。这个 value 网络帮助计算 advantage(优势),即在某个状态下执行某个动作相对于平均水平的优越性。

二、DDPG算法

1. actor网络

DDPG 使用一个 actor 网络 [ μ θ ( s t ) ] [ \mu_\theta(s_t) ] [μθ(st)],其输出是在给定状态下采取的动作。与 PPO 不同,DDPG 的输出是连续的动作,而不是动作概率分布。

2. Critic网络

DDPG 有一个 critic 网络 [ Q ϕ ( s t , a t ) ] [ Q_\phi(s_t, a_t) ] [Qϕ(st,at)],用于估计在给定状态和动作下的 Q 值(动作的质量)。这个 Q 值用于计算 policy gradient,以更新 actor 网络。

Critic 网络的训练目标是最小化 Q 值的均方误差,以使其能够准确估计累积奖励。

三、比较

  • 更新目标:PPO 通过迭代更新 policy 来提高性能 ,而 DDPG 则使用 critic 网络的 Q 值来计算 policy gradient,并更新 actor 网络。
相关推荐
不写八个4 分钟前
Python办公自动化教程(005):Word添加段落
开发语言·python·word
HEX9CF9 分钟前
【CTF Web】Pikachu xss之href输出 Writeup(GET请求+反射型XSS+javascript:伪协议绕过)
开发语言·前端·javascript·安全·网络安全·ecmascript·xss
希望有朝一日能如愿以偿24 分钟前
力扣题解(飞机座位分配概率)
算法·leetcode·职场和发展
赵荏苒34 分钟前
Python小白之Pandas1
开发语言·python
丶Darling.35 分钟前
代码随想录 | Day26 | 二叉树:二叉搜索树中的插入操作&&删除二叉搜索树中的节点&&修剪二叉搜索树
开发语言·数据结构·c++·笔记·学习·算法
JustCouvrir39 分钟前
代码随想录算法训练营Day15
算法
人生の三重奏43 分钟前
前端——js补充
开发语言·前端·javascript
小小工匠1 小时前
加密与安全_HOTP一次性密码生成算法
算法·安全·htop·一次性密码
中文英文-我选中文1 小时前
排序算法的理解
算法·排序算法
平凡的小码农1 小时前
JAVA实现大写金额转小写金额
java·开发语言