PPO算法与DDPG算法的比较

一、PPO算法

1. actor网络

Actor 网络输出在给定状态 s t s_t st下采取每个动作的概率分布,通常使用一个神经网络表示: [ π θ ( a t ∣ s t ) ] [ \pi_\theta(a_t | s_t) ] [πθ(at∣st)].PPO 迭代地更新这个 policy,以改进策略并提高性能。

2. Critic网络

V ϕ ( s t ) \] \[ V_\\phi(s_t) \] \[Vϕ(st)\]用于估计状态的值函数。Critic 网络的目标是学习一个准确估计的状态值函数,以便计算优势函数(Advantage Function)。这个 value 网络帮助计算 advantage(优势),即在某个状态下执行某个动作相对于平均水平的优越性。 ![在这里插入图片描述](https://file.jishuzhan.net/article/1727994170762596354/7ecb84aa5ae0ec74af9a0bfa386c0d62.webp) ## 二、DDPG算法 ### 1. actor网络 DDPG 使用一个 actor 网络 \[ μ θ ( s t ) \] \[ \\mu_\\theta(s_t) \] \[μθ(st)\],其输出是在给定状态下采取的动作。与 PPO 不同,DDPG 的输出是连续的动作,而不是动作概率分布。 ### 2. Critic网络 DDPG 有一个 critic 网络 \[ Q ϕ ( s t , a t ) \] \[ Q_\\phi(s_t, a_t) \] \[Qϕ(st,at)\],用于估计在给定状态和动作下的 Q 值(动作的质量)。这个 Q 值用于计算 policy gradient,以更新 actor 网络。 Critic 网络的训练目标是最小化 Q 值的均方误差,以使其能够准确估计累积奖励。 ![在这里插入图片描述](https://file.jishuzhan.net/article/1727994170762596354/be80119ae0178a41d79c1bfbf7a8109b.webp) ## 三、比较 * 更新目标:PPO 通过**迭代更新 policy 来提高性能** ,而 DDPG 则使用 **critic 网络的 Q 值来计算 policy gradient**,并更新 actor 网络。

相关推荐
摇滚侠几秒前
Groovy 如何给集合中添加元素
java·开发语言·windows·python
~plus~几秒前
C# 事件溯源与 CQRS 架构:用 EventStoreDB 打造可靠系统
开发语言·架构·c#
江奖蒋犟4 分钟前
【C++】红黑树
开发语言·c++
雒珣6 分钟前
Qt实现命令行参数功能示例:QCommandLineParser
开发语言·数据库·qt
.柒宇.9 分钟前
力扣hot100之最大子数组和(Java版)
数据结构·算法·leetcode
无巧不成书021815 分钟前
Java异常体系与处理全解:核心原理、实战用法、避坑指南
java·开发语言·异常处理·java异常处理体系
黎阳之光16 分钟前
非视距·自愈·广覆盖|黎阳之光1.4&5.8GHz宽带自愈网无线基站,重构工业级无线通信
大数据·人工智能·算法·安全·数字孪生
llilian_1624 分钟前
铷原子频率标准 以时频基准破局,为计量校准赋能 时基铷钟
网络·功能测试·单片机·嵌入式硬件·测试工具·算法
大尚来也27 分钟前
Go性能调优实战:用pprof精准定位瓶颈
开发语言
6Hzlia28 分钟前
【Hot 100 刷题计划】 LeetCode 131. 分割回文串 | C++ 回溯算法基础切割法
c++·算法·leetcode