《Mastering Diverse Domains through World Models》随记

博客地址:https://www.cnblogs.com/zylyehuo/
参考链接:从DreamerV1到DreamerV3|Model-based RL的学习之路

DreamerV3 的主要贡献

但是其实需要摄像头一直朝向前方,如果摄像头有发生左转或者右转,出现跳变的话,会比较难预测。

DreamerV3 在 DreamerV2 上的改动

在 encoder 和 decoder 上有非常多的种类

DreamerV3 的架构和 DreamerV2 是差不多的

实现跨不同领域【主要的三个 trick】

通过这主要的三个 trick,能够让在不同的环境下尺度不一样的 reward 和 observation 的尺度统一在一个空间下。
让它的 World Model、Critic、Actor 的输入和输出在不同的环境下都统一,从而在不同的环境下达到很好的效果。

Symlog and Symexp

把不同目标(不同量纲)都映射到同一个平滑的区域,让不同量纲的 loss 的 scale 到同一个空间里面。

Twohot Encodeing

onehot 是把一个单词映射成一个向量
twohot 是把一个连续值映射成两个离散值

那网络就变成只要预测离散的值就可以了,将回归任务变成一个分类任务

Returns Normalization

用在 Actor 的更新上
能让稀疏情况下的 reward 能够更好的进行归一化,能够在奖励稀疏的情况下更好地训练 Actor

相关推荐
zylyehuo17 小时前
《Dream to Control: Learning Behaviors by Latent Imagination》随记
导航
G果3 天前
LIO-SAM 学习总结
学习·slam·点云·ros2·导航·nav2·liosam
zylyehuo7 天前
what(): EGL error 0x300c at eglBindAPI 已放弃 (核心已转储)
导航
zylyehuo8 天前
规划导航框架【包含最详细的 Minimum Snap 公式推导】
导航
Yuroo zhou2 个月前
IMU如何成为机器人自主移动的核心传感器
人工智能·机器人·无人机·导航·传感器·飞行器
Evand J2 个月前
【MATLAB例程】二维平面中,基于MUSIC解算角度的DOA定位,对未知点确定XY坐标,传感器数量自适应。附代码下载链接
matlab·定位·导航·doa·到达角·测角定位
Evand J2 个月前
【MATLAB代码介绍】基于累积概率的三维轨迹匹配与定位,由轨迹匹配和卡尔曼滤波形成算法,带测试结果演示
算法·matlab·滤波·定位·导航·轨迹匹配
深蓝学院2 个月前
完全端到端闭环导航!仅需相机,LoGoPlanner实现感知定位规划一体化
机器人·导航·端到端·具身智能
杨浦老苏2 个月前
轻量级自托管仪表盘Dashlet
docker·群晖·导航