《Dream to Control: Learning Behaviors by Latent Imagination》随记

博客地址:https://www.cnblogs.com/zylyehuo/
参考链接:从DreamerV1到DreamerV3|Model-based RL的学习之路

阶段一:学习世界模型(Dynamics Learning)

具体可以参考链接:《Learning Latent Dynamics for Planning from Pixels》随记


阶段二:在潜空间中想象(Behavior Learning)


阶段三:与环境交互(Environment Interaction)

PlaNet 和 Dreamer 的异同

PlaNet = 世界模型(RSSM) + 在线实时推演找最优解 。
Dreamer = 世界模型(RSSM) + 离线在梦境中训练 Actor/Critic + 依靠 Actor 实时反应 。
PlaNet 不是 Dreamer 的前奏,而是它的"前身"。Dreamer 是站在 PlaNet 的肩膀上,把耗时的"在线规划"替换成了更优雅、更具长远目光的"梦境 Actor-Critic 训练" 。

相同点

不管是 PlaNet 还是 Dreamer,它们认识世界的方式是一模一样的 。它们都会收集过去的经验,然后训练 RSSM(循环状态空间模型)。

不同点

有了"预测未来"的能力后,它们采取了不同的战术

相关推荐
Evand J1 天前
【MATLAB程序】基于RSSI的RFID二维轨迹定位仿真介绍,EKF滤波增加轨迹定位精度。附下载链接
开发语言·matlab·平面·滤波·定位·导航
Evand J4 天前
【代码介绍】二维平面上的雷达跟踪与UKF(无迹卡尔曼滤波),高精度估计目标轨迹,输出真值、估计值、误差特性等
matlab·平面·雷达·滤波·定位·导航·跟踪
kyle~10 天前
导航---LIO(激光雷达-惯性里程计)算法
c++·算法·机器人·ros2·导航
Evand J12 天前
【MATLAB代码介绍】使用EKF融合惯导和DVL(速度)的MATLAB仿真例程
matlab·ekf·滤波·定位·导航·卡尔曼滤波·非线性滤波
kyle~24 天前
导航---Small-GICP重定位算法
c++·机器人·ros2·导航
余衫马1 个月前
Ubuntu 24.04 环境实战:ROS 2 Kilted 实现 SLAM 建图与 Nav2 导航
ubuntu·仿真·ros2·导航
zylyehuo1 个月前
VLN 与世界模型的关系
导航
zylyehuo1 个月前
《Mastering Diverse Domains through World Models》随记
导航
G果1 个月前
LIO-SAM 学习总结
学习·slam·点云·ros2·导航·nav2·liosam