《Mastering Diverse Domains through World Models》随记

博客地址:https://www.cnblogs.com/zylyehuo/
参考链接:从DreamerV1到DreamerV3|Model-based RL的学习之路

DreamerV3 的主要贡献

但是其实需要摄像头一直朝向前方,如果摄像头有发生左转或者右转,出现跳变的话,会比较难预测。

DreamerV3 在 DreamerV2 上的改动

在 encoder 和 decoder 上有非常多的种类

DreamerV3 的架构和 DreamerV2 是差不多的

实现跨不同领域【主要的三个 trick】

通过这主要的三个 trick,能够让在不同的环境下尺度不一样的 reward 和 observation 的尺度统一在一个空间下。
让它的 World Model、Critic、Actor 的输入和输出在不同的环境下都统一,从而在不同的环境下达到很好的效果。

Symlog and Symexp

把不同目标(不同量纲)都映射到同一个平滑的区域,让不同量纲的 loss 的 scale 到同一个空间里面。

Twohot Encodeing

onehot 是把一个单词映射成一个向量
twohot 是把一个连续值映射成两个离散值

那网络就变成只要预测离散的值就可以了,将回归任务变成一个分类任务

Returns Normalization

用在 Actor 的更新上
能让稀疏情况下的 reward 能够更好的进行归一化,能够在奖励稀疏的情况下更好地训练 Actor

相关推荐
Evand J1 天前
【MATLAB程序】基于RSSI的RFID二维轨迹定位仿真介绍,EKF滤波增加轨迹定位精度。附下载链接
开发语言·matlab·平面·滤波·定位·导航
Evand J4 天前
【代码介绍】二维平面上的雷达跟踪与UKF(无迹卡尔曼滤波),高精度估计目标轨迹,输出真值、估计值、误差特性等
matlab·平面·雷达·滤波·定位·导航·跟踪
kyle~10 天前
导航---LIO(激光雷达-惯性里程计)算法
c++·算法·机器人·ros2·导航
Evand J12 天前
【MATLAB代码介绍】使用EKF融合惯导和DVL(速度)的MATLAB仿真例程
matlab·ekf·滤波·定位·导航·卡尔曼滤波·非线性滤波
kyle~24 天前
导航---Small-GICP重定位算法
c++·机器人·ros2·导航
余衫马1 个月前
Ubuntu 24.04 环境实战:ROS 2 Kilted 实现 SLAM 建图与 Nav2 导航
ubuntu·仿真·ros2·导航
zylyehuo1 个月前
VLN 与世界模型的关系
导航
zylyehuo1 个月前
《Dream to Control: Learning Behaviors by Latent Imagination》随记
导航
G果1 个月前
LIO-SAM 学习总结
学习·slam·点云·ros2·导航·nav2·liosam