MEM多尺度具身记忆：让机器人从“会做动作“到“能完成工作“的关键突破

0. 引言

当前的机器人基础模型已经能够执行诸如"清洗煎锅"、"折叠衣物"或"制作花生酱三明治"等指令,展现出精细且复杂的运动技能。然而,我们真正需要的不仅仅是能执行短暂独立技能的机器人,而是能够完成完整工作的机器人 ------例如清理整个厨房或烹饪一顿正餐。这种从单一技能到完整任务的跨越,正是当前具身智能领域面临的核心挑战。

随着单项技能变得越来越稳健,瓶颈已逐渐从技能本身转移到机器人如何部署这些技能以解决复杂任务上 。对于清理厨房或备餐这类复杂的多阶段行为,仅掌握独立的运动技能远远不够。机器人必须维持关于任务进度的连贯叙事,即使相关物体不在视野范围内也能记住其位置,并回顾过去哪些做法有效、哪些无效,以避免重蹈覆辙。这些能力的核心,都指向同一个关键要素:记忆。

这需要同时具备长期记忆和短期记忆。在几分钟甚至几小时的任务过程中,将机器人的所有观察历史完整地保留在上下文中是不可行的;但若将其完全丢弃,又会导致机器人在长时任务中做出荒谬的行为。更糟糕的是,设计不当的记忆系统甚至会通过一种被称为**"因果混淆"(causal confusion)**的现象损害性能------记忆加剧了那些干扰机器人模仿学习的虚假相关性,让机器人越学越"笨"。

正是由于为机器人设计有效记忆架构的难度,即使是其他方面能力出众的学习系统,通常也只能在持续仅几分钟的短时、严格控制的任务中进行演示。如何突破这一瓶颈,让机器人具备真正的长时任务执行能力 ,成为具身智能走向实用化的关键一步。Physical Intelligence团队提出的**MEM多尺度具身记忆**,正是为解决这一核心问题而生。

1. MEM的核心设计理念:多模态记忆的创新思路

Physical Intelligence团队开发的多尺度具身记忆方法,旨在为模型赋予记忆能力,使其能够执行极长时间的任务。MEM允许模型跟踪长达15分钟的任务 ,同时保持短期和长期记忆,甚至能通过上下文自适应来纠正错误。这一突破的关键,在于其创新性的多模态记忆设计理念,将不同时间尺度的记忆需求用不同的表示形式来满足。

MEM提供了一种创新的多模态记忆机制:短期记忆以原始观察数据的形式维持 ,保留最近几秒内场景的详细变化;长期记忆以自然语言描述的抽象概念形式存储 ,记录任务进度和状态。这种设计的核心洞察在于,复杂的物理任务对记忆的要求本身就是分层的,不同层次的信息需要用最适合的方式来表示和存储。

这种设计背后的深层思考是:机器人可能需要在极短的时间尺度上详细记住最近发生的事件,比如筷子的夹取角度、三明治的烤制时间,这些信息依赖于视觉的细节;同时也需要在较长的时间跨度内维持记忆,比如厨房的哪些区域已经清洁过、哪些食材已经取出,这些信息用抽象的语言描述更加高效。若将所有这些记忆都以原始图像的形式强行塞入模型的上下文窗口中,不仅不切实际,而且考虑到实时控制的需求,这种做法更是难以实现。

MEM的整体架构包含两个核心组件,它们协同工作以实现高效的记忆管理。第一个组件是高效视频编码器 ,用于处理基于帧的短视界历史数据;第二个组件是基于语言的记忆机制,用于维护长视界的上下文信息。这两个组件不是简单的并列关系,而是通过一个统一的推理机制深度耦合在一起。

模型通过一个推理机制主动选择"记住什么"以及"如何记住",该机制同时也用于选择高层级的子任务,从而有效地对**"做什么"和"记什么"进行双重推理**。这种设计使得记忆的生成和任务的执行紧密耦合,避免了传统方法中记忆与行为脱节的问题。记忆不再是被动的历史记录,而是主动的、可学习的、与任务执行深度集成的智能系统。

在经过多样化的机器人及非机器人数据训练后,搭载MEM的VLA模型能够解决需要长达15分钟记忆跨度的任务,有效应对部分可观测性 挑战,并具备通过上下文自适应调整操作策略的能力。这三项能力的结合,让机器人真正具备了在真实世界中执行复杂长时任务的潜力,标志着具身智能从实验室演示走向实际应用的重要一步。

2. 短期记忆:视频编码器的高效设计

短期记忆要回答的核心问题是:"刚刚几秒内,场景里发生了什么变化?"这对于精细操作至关重要。比如夹筷子时的夹取角度和轨迹,冰箱门是往里推还是往外拉、刚才试过哪边,三明治在锅里煎了多久、颜色如何变化。这些信息都需要基于最近几秒内的视觉观察来判断,是机器人完成精细操作不可或缺的基础。

若把这段时间的每一帧都原样送入VLA的主干网络,token数量会非常大,推理延迟和成本都会飙升,难以满足实时控制的需求。机器人控制通常要求在300毫秒内完成一次决策 ,如果处理历史视频帧的时间过长,就会导致动作响应迟缓,在快速变化的环境中可能造成操作失败甚至安全事故。因此,需要一种高效的视频表示方法:在保留时间维度的前提下,大幅压缩token数量。

MEM采用了一种专为短时帧序列历史设计的视频编码器。其核心思想是在标准的Vision Transformer基础上,引入时间维度的注意力,并让空间注意力与时间注意力在网络的各层之间交错出现。空间注意力层在单帧内做自注意力,关注"这一帧里哪些区域重要",比如物体、手、门把等关键元素;时间注意力层则在相同空间位置上,对不同时间步的token做因果注意力,从而在时间维度上追踪"这个位置上的物体或手是如何运动的"。

这种设计的巧妙之处在于,它没有引入新的可学习参数,视频编码能力完全通过修改注意力模式和添加固定的正弦时间位置编码实现。这意味着可以直接用任意标准视觉语言模型的预训练ViT权重来初始化视频编码器,充分利用现有的大规模预训练成果,大幅降低了训练成本和难度。同时,通过避免在时空维度上对所有图像块执行联合注意力,计算成本也得到了有效控制。

为进一步控制送入VLA主干的token数量,编码器在较高层会对历史帧的token进行选择性丢弃 。具体来说,在网络的高层,直接丢弃所有过往时间步的图像块表征,仅传递当前时间步的计算表征。最终输入VLA主干网络的token数量与无记忆机制的单时间步VLA完全一致,这意味着引入记忆机制不会带来任何额外的推理开销,保证了实时控制的可行性。

这样,短期记忆既保留了"最近几秒内发生了什么"的时序信息,又不会占满上下文窗口,在延迟与信息量之间取得了完美平衡。可以理解为,这是一种经过"空间-时间交错注意力加高层压缩"处理后的、最近几秒的"浓缩视频",它保留了对当前决策最关键的时序信息,同时将计算开销控制在可接受范围内,供VLA在做下一步动作时参考。

3. 长期记忆:语言化的任务进度追踪

对于跨分钟甚至十几分钟的任务,若仍用视频或密集的帧序列做记忆,在工程上几乎不可行,且会引入大量冗余。MEM的选择是将长时记忆抽象成自然语言描述 。这样做有多个关键优势:首先是紧凑性 ,几句或十几句话就能概括大量步骤与状态,相比视频帧的存储效率提升数个数量级;其次是语义对齐,任务本身往往也是用语言描述的,记忆与任务描述在同一语义空间中,便于规划和检索。

自然语言作为长期记忆载体的另一个重要优势是可概括性 。例如多次"拿盘子"可以总结成"已经把盘子都拿好了",避免逐条罗列,实现信息的智能压缩。同时,在上下文长度受限时,可以动态选择要保留或压缩的旧记忆条目,使总记忆量保持在可管理范围内。这种灵活性是视频记忆难以实现的,因为视频帧之间很难进行语义级别的合并和压缩。

长期记忆在系统中表现为一段可增补、可被模型读取的文本 ,随任务进行不断追加与更新。以"为菜谱准备食材"任务为例,机器人会逐步生成并维护类似这样的文字记忆:从初始状态"我还没有完成任何步骤",到"我移动到了炉子旁",再到"我把锅盖放在了炉子左侧的台面上;我把锅放进了水槽",最后到"我把黄色土豆袋、细口白牛奶瓶和黄油块放在了炉子左侧的台面上"。整个过程形成了一条连贯的任务进度叙事。

这些句子具有鲜明的特点:它们是事件驱动的记录 ,不是逐帧日志,而是"做了哪件事、当前拿着什么、哪些门或抽屉还开着"等高层次描述;它们采用累积式叙述 ,新句往往在旧句基础上追加,形成连贯的"任务进度故事线";它们包含状态信息维护,例如"目前正拿着某物"或"某门仍开着",便于后续步骤判断"要不要先关门再去做别的事"。这种结构化的记忆方式,让机器人能够像人类一样维持对任务全局的把握。

MEM建立在已有的高层子任务加低层动作的推理结构上,将高层推理过程扩展为:除了选择子任务,还生成并更新文本记忆。也就是说,模型在**"决定下一步做什么"的同时,也会"决定要在长期记忆里写什么"**。记忆的写法可以灵活设计:可以是直接记录被选中的子任务,也可以是对过去事件做智能摘要,或者在上下文长度受限时动态选择要保留或压缩的旧记忆条目。

这样,长期记忆既不是被动地堆砌原始日志,也不是固定模板,而是由模型主动、可学习地生成与维护,与任务执行紧密耦合 。更重要的是,MEM只在任务成功完成后才更新记忆表征,直接过滤掉无意义的失败尝试记录 。这一设计有效缓解了朴素语言记忆存在的训练-推理分布偏移问题,避免了因反复失败而产生大量重复指令,导致推理分布与训练分布严重脱节的情况。

MEM多尺度具身记忆：让机器人从“会做动作“到“能完成工作“的关键突破

0. 引言

1. MEM的核心设计理念:多模态记忆的创新思路

2. 短期记忆:视频编码器的高效设计

3. 长期记忆:语言化的任务进度追踪

...详情请参照古月居