《Mastering Diverse Domains through World Models》随记

博客地址:https://www.cnblogs.com/zylyehuo/
参考链接:从DreamerV1到DreamerV3|Model-based RL的学习之路

DreamerV3 的主要贡献

但是其实需要摄像头一直朝向前方,如果摄像头有发生左转或者右转,出现跳变的话,会比较难预测。

DreamerV3 在 DreamerV2 上的改动

在 encoder 和 decoder 上有非常多的种类

DreamerV3 的架构和 DreamerV2 是差不多的

实现跨不同领域【主要的三个 trick】

通过这主要的三个 trick,能够让在不同的环境下尺度不一样的 reward 和 observation 的尺度统一在一个空间下。
让它的 World Model、Critic、Actor 的输入和输出在不同的环境下都统一,从而在不同的环境下达到很好的效果。

Symlog and Symexp

把不同目标(不同量纲)都映射到同一个平滑的区域,让不同量纲的 loss 的 scale 到同一个空间里面。

Twohot Encodeing

onehot 是把一个单词映射成一个向量
twohot 是把一个连续值映射成两个离散值

那网络就变成只要预测离散的值就可以了,将回归任务变成一个分类任务

Returns Normalization

用在 Actor 的更新上
能让稀疏情况下的 reward 能够更好的进行归一化,能够在奖励稀疏的情况下更好地训练 Actor

相关推荐
kyle~3 天前
导航---Small-GICP重定位算法
c++·机器人·ros2·导航
余衫马11 天前
Ubuntu 24.04 环境实战:ROS 2 Kilted 实现 SLAM 建图与 Nav2 导航
ubuntu·仿真·ros2·导航
zylyehuo21 天前
VLN 与世界模型的关系
导航
zylyehuo22 天前
《Dream to Control: Learning Behaviors by Latent Imagination》随记
导航
G果24 天前
LIO-SAM 学习总结
学习·slam·点云·ros2·导航·nav2·liosam
zylyehuo1 个月前
what(): EGL error 0x300c at eglBindAPI 已放弃 (核心已转储)
导航
zylyehuo1 个月前
规划导航框架【包含最详细的 Minimum Snap 公式推导】
导航
Yuroo zhou2 个月前
IMU如何成为机器人自主移动的核心传感器
人工智能·机器人·无人机·导航·传感器·飞行器
Evand J3 个月前
【MATLAB例程】二维平面中,基于MUSIC解算角度的DOA定位,对未知点确定XY坐标,传感器数量自适应。附代码下载链接
matlab·定位·导航·doa·到达角·测角定位