STORM论文阅读笔记

  • 这是篇NIPS2023的 world model 论文
  • 文章提出,WM的误差会在训练过程中积累从而影响policy的训练,向WM中加噪声可以改善这一点。
  • 其他的流程和IRIS差不多,差别在以下几点:
    • image encoder,IRIS用的VQVAE, 本文用的是VAE,用VAE的采样方式来生成zt,从而为zt加噪声。
    • sequence model,IRIS用GPT循环输出image的每个token,本文直接用MLP把生成的 z t z_t zt 和动作 a t a_t at 输出成一个token,这样GPT只需要在时序上循环而不需要在同一个 t 内的不同 token 上循环。换句话说,IRIS的一个图片是GPT中的16个token,而STORM的一个图片是GPT中的一个token。
    • hidden state,IRIS直接从 z 1 : t z_{1:t} z1:t 预测 z t + 1 z_{t+1} zt+1,相当于RNN,而 STORM先从 z 1 : t z_{1:t} z1:t 预测 h t h_{t} ht,也就是说上面的sequence model输出的不是 z ,而是hidden state h,再用一个MLP从 h t h_t ht来预测 z t + 1 z_{t+1} zt+1,这点是用了Dreamerv3的思路
    • loss function,用的也是dreamerv3的loss function
  • 完整公式和损失函数如下:



Agent learning

  • 强化学习的部分和dreamerv3一样,不过强调了下value函数用的是移动平均:
相关推荐
kida_yuan6 分钟前
【Linux】运维实战笔记 — 我常用的方法与命令
linux·运维·笔记
laplace012328 分钟前
Claude Skills 笔记整理
人工智能·笔记·agent·rag·skills
三块可乐两块冰30 分钟前
【第二十八周】机器学习笔记二十九
笔记
血小板要健康43 分钟前
Java基础常见面试题复习合集1
java·开发语言·经验分享·笔记·面试·学习方法
童话名剑1 小时前
情感分类与词嵌入除偏(吴恩达深度学习笔记)
笔记·深度学习·分类
咋吃都不胖lyh1 小时前
CLIP 不是一个 “自主判断图像内容” 的图像分类模型,而是一个 “图文语义相似度匹配模型”—
人工智能·深度学习·机器学习
智者知已应修善业1 小时前
【查找字符最大下标以*符号分割以**结束】2024-12-24
c语言·c++·经验分享·笔记·算法
91刘仁德2 小时前
c++类和对象(下)
c语言·jvm·c++·经验分享·笔记·算法
Stream_Silver2 小时前
【Agent学习笔记3:使用Python开发简单MCP服务】
笔记·python
Stream_Silver2 小时前
【Agent学习笔记2:深入理解Function Calling技术:从原理到实践】
笔记·python