《Dream to Control: Learning Behaviors by Latent Imagination》随记

博客地址:https://www.cnblogs.com/zylyehuo/
参考链接:从DreamerV1到DreamerV3|Model-based RL的学习之路

阶段一:学习世界模型(Dynamics Learning)

具体可以参考链接:《Learning Latent Dynamics for Planning from Pixels》随记


阶段二:在潜空间中想象(Behavior Learning)


阶段三:与环境交互(Environment Interaction)

PlaNet 和 Dreamer 的异同

PlaNet = 世界模型(RSSM) + 在线实时推演找最优解 。
Dreamer = 世界模型(RSSM) + 离线在梦境中训练 Actor/Critic + 依靠 Actor 实时反应 。
PlaNet 不是 Dreamer 的前奏,而是它的"前身"。Dreamer 是站在 PlaNet 的肩膀上,把耗时的"在线规划"替换成了更优雅、更具长远目光的"梦境 Actor-Critic 训练" 。

相同点

不管是 PlaNet 还是 Dreamer,它们认识世界的方式是一模一样的 。它们都会收集过去的经验,然后训练 RSSM(循环状态空间模型)。

不同点

有了"预测未来"的能力后,它们采取了不同的战术

相关推荐
G果2 天前
LIO-SAM 学习总结
学习·slam·点云·ros2·导航·nav2·liosam
zylyehuo6 天前
what(): EGL error 0x300c at eglBindAPI 已放弃 (核心已转储)
导航
zylyehuo7 天前
规划导航框架【包含最详细的 Minimum Snap 公式推导】
导航
Yuroo zhou2 个月前
IMU如何成为机器人自主移动的核心传感器
人工智能·机器人·无人机·导航·传感器·飞行器
Evand J2 个月前
【MATLAB例程】二维平面中,基于MUSIC解算角度的DOA定位,对未知点确定XY坐标,传感器数量自适应。附代码下载链接
matlab·定位·导航·doa·到达角·测角定位
Evand J2 个月前
【MATLAB代码介绍】基于累积概率的三维轨迹匹配与定位,由轨迹匹配和卡尔曼滤波形成算法,带测试结果演示
算法·matlab·滤波·定位·导航·轨迹匹配
深蓝学院2 个月前
完全端到端闭环导航!仅需相机,LoGoPlanner实现感知定位规划一体化
机器人·导航·端到端·具身智能
杨浦老苏2 个月前
轻量级自托管仪表盘Dashlet
docker·群晖·导航
zylyehuo2 个月前
Ubuntu22.04(ROS2 humble)小车仿真环境搭建
ros2·导航