【论文阅读】MEM: Multi-Scale Embodied Memory for Vision Language Action Models

快速了解部分

基础信息（英文）：

1.题目: MEM: Multi-Scale Embodied Memory for Vision Language Action Models

2.时间: 2025.04

3.机构: Physical Intelligence, Stanford University, UC Berkeley, MIT

4.3个英文关键词: VLA, Memory, Video Encoder

1句话通俗总结本文干了什么事情

本文提出了一种名为MEM的多模态记忆架构，通过结合短时视觉记忆和长时语言记忆，解决了机器人模型在处理长达十几分钟的复杂任务时的记忆与效率平衡问题。

研究痛点：现有研究不足 / 要解决的具体问题

现有VLA模型大多无记忆或仅依赖密集的历史观测，导致在面对长周期、多步骤的复杂任务（如烹饪、清洁）时，无法兼顾长期语义记忆（如"已加过盐"）和短期视觉细节（如防遮挡），且计算成本过高难以实现实时推理。

核心方法：关键技术、研究设计（简要）

采用"双轨制"记忆设计：利用高效的视频Encoder处理秒级的密集视觉帧（短时记忆），同时利用语言摘要机制记录和更新任务进度的文本描述（长时记忆），两者结合使模型既能处理细节操作又能记住宏观进度。

深入了解部分

作者想要表达什么

作者旨在证明，单一模态的记忆形式（如仅靠图像或仅靠文本）无法有效解决机器人在开放世界中的长程任务需求；通过将视觉的"空间细节"与语言的"语义压缩"在不同时间尺度上解耦并结合，可以在不牺牲推理速度的前提下，极大提升机器人的任务完成能力和对错误的上下文适应能力。

相比前人创新在哪里

创新点在于多模态与多尺度的结合：不同于前人仅使用图像历史或简单的Keyframe抽帧，本文明确区分了短时（视频流）和长时（语言流）记忆，并设计了无需额外参数的视频Encoder（基于ViT修改Attention机制）以及具备压缩能力的语言记忆更新机制，解决了长视频输入的计算瓶颈和长文本记忆的分布偏移问题。

解决方法/算法的通俗解释

把机器人的记忆比作人脑：短时记忆就像"眼前几秒的画面回放"，用来防手遮挡物体或纠正抓取动作，用视频Encoder压缩处理；长时记忆就像"脑子里的任务清单"，记的是"步骤A已完成"，用语言模型生成摘要。两者互不干扰，共同工作。

解决方法的具体做法

短时视觉记忆：修改ViT的Attention层，每隔几层加入时间维度Attention，将过去几秒的视频帧压缩编码，输入到VLA Backbone。
长时语言记忆：训练一个高层策略网络，根据当前观察和旧记忆，生成新的语言摘要（如"已拿盘子，放入碗"），自动压缩冗余信息。
整合：将压缩后的视频特征和语言摘要同时输入π0.6 VLA模型，指导动作生成。

基于前人的哪些方法

基于π0.6 VLA模型（Base Model）；借鉴了ViT的架构；参考了Space-Time Separable Attention（视频理解领域）的思想来设计视频Encoder；利用了Gemma3-4B作为基础VLM。

实验设置、数据、评估方式、结论

在包含烹饪（准备食材）、清洁厨房（长达15分钟）等长程任务上测试；使用π0.6作为基准，对比了无记忆、平均池化记忆、仅本体感知记忆等变体；评估指标为任务成功率。结论：MEM显著提升了长程任务成功率，且能利用短时记忆纠正抓取错误（In-Context Adaptation），优于单一模态记忆方案。

提到的同类工作

RT-2, Octo, PaLM-E, Fast, Gemini Robotics, Gr00t n1, VideoMamba, SAM2ACT, CronusVLA, OneTwoVLA.

和本文相关性最高的3个文献

$1$ π0.5: a vision-language-action model with open-world generalization, 2025.

$2$ Is space-time attention all you need for video understanding? , 2021.

$3$ Palm-e: An embodied multimodal language model.

我的

分为2个模型，一个负责输出记忆（纯语言），一个负责接收subtask prompt。