Explore with Long-term Memory:基于多模态大语言模型与强化学习的具身探索框架

1.1.1 Explore with Long-term Memory:基于多模态大语言模型与强化学习的具身探索框架

1.1.1.1 LMEE 范式认知:从"一次性任务"到"终身探索"

想象一个快递员第一次进入一栋陌生的写字楼。他手里有一张清单,上面列着五个需要送达的包裹,分别在不同楼层、不同房间。传统的方法是什么?他每找到一个包裹就返回起点重新规划路线------这就是现有主流具身智能任务的"一次性"范式:任务完成即结束,探索过程的记忆被丢弃,下一个任务从零开始。

现在让我们换一种方式:这位快递员在第一次探索时,不仅记住了每个包裹的位置,还记住了电梯位置、走廊布局、甚至哪个房间门口有绿植。当他第二次进入这栋楼时,他已经拥有一张"活地图"------这就是 LMEE(Long-term Memory Embodied Exploration,长期记忆具身探索)的核心直觉。对于首次接触这个概念的读者,请记住这个"快递员活地图"的具象锚点: episodic memory(情景记忆)就是快递员脑中那张不断更新的地图。对于已有强化学习经验的读者,可以把 LMEE 理解为"将 POMDP(部分可观察马尔可夫决策过程)中的历史观测序列,从丢弃式缓冲升级为可检索、可查询、可推理的外部记忆库",其本质是通过记忆的外部化来突破上下文窗口的物理限制。

核心结论:LMEE 将具身智能的评估维度从"任务是否完成"扩展为"探索过程的记忆积累与利用",通过多目标导航(Multi-goal Navigation)和基于记忆的问答(Memory-based Question Answering)两个子任务,统一了探索认知与决策行为。

实现细节:LMEE-Bench 基于 HM3DSem 数据集(145 个训练场景、36 个测试场景,含语义标注),涵盖 246 种物体类别、超过 9,000 个目标与问题、1,982 条探索轨迹。任务难度分为 easy、medium、hard 三级,依据探索区域数量、目标数量和初始位置到目标的距离划分。

如果不用长期记忆机制,会发生什么?想象一个机器人在一栋房子里寻找"红色沙发"。没有记忆的机器人每次进入房间都像第一次------它会反复检查同一个空房间,因为它不记得三秒前已经看过了。在强化学习的术语中,这被称为"部分可观察性灾难":观测窗口有限导致状态空间坍缩,策略陷入局部循环。LMEE 通过构建外部 episodic memory bank 来解决这个问题。
#mermaid-svg-YUKiv9eL01taao3I{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-YUKiv9eL01taao3I .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-YUKiv9eL01taao3I .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-YUKiv9eL01taao3I .error-icon{fill:#552222;}#mermaid-svg-YUKiv9eL01taao3I .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-YUKiv9eL01taao3I .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-YUKiv9eL01taao3I .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-YUKiv9eL01taao3I .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-YUKiv9eL01taao3I .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-YUKiv9eL01taao3I .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-YUKiv9eL01taao3I .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-YUKiv9eL01taao3I .marker{fill:#333333;stroke:#333333;}#mermaid-svg-YUKiv9eL01taao3I .marker.cross{stroke:#333333;}#mermaid-svg-YUKiv9eL01taao3I svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-YUKiv9eL01taao3I p{margin:0;}#mermaid-svg-YUKiv9eL01taao3I .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-YUKiv9eL01taao3I .cluster-label text{fill:#333;}#mermaid-svg-YUKiv9eL01taao3I .cluster-label span{color:#333;}#mermaid-svg-YUKiv9eL01taao3I .cluster-label span p{background-color:transparent;}#mermaid-svg-YUKiv9eL01taao3I .label text,#mermaid-svg-YUKiv9eL01taao3I span{fill:#333;color:#333;}#mermaid-svg-YUKiv9eL01taao3I .node rect,#mermaid-svg-YUKiv9eL01taao3I .node circle,#mermaid-svg-YUKiv9eL01taao3I .node ellipse,#mermaid-svg-YUKiv9eL01taao3I .node polygon,#mermaid-svg-YUKiv9eL01taao3I .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-YUKiv9eL01taao3I .rough-node .label text,#mermaid-svg-YUKiv9eL01taao3I .node .label text,#mermaid-svg-YUKiv9eL01taao3I .image-shape .label,#mermaid-svg-YUKiv9eL01taao3I .icon-shape .label{text-anchor:middle;}#mermaid-svg-YUKiv9eL01taao3I .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-YUKiv9eL01taao3I .rough-node .label,#mermaid-svg-YUKiv9eL01taao3I .node .label,#mermaid-svg-YUKiv9eL01taao3I .image-shape .label,#mermaid-svg-YUKiv9eL01taao3I .icon-shape .label{text-align:center;}#mermaid-svg-YUKiv9eL01taao3I .node.clickable{cursor:pointer;}#mermaid-svg-YUKiv9eL01taao3I .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-YUKiv9eL01taao3I .arrowheadPath{fill:#333333;}#mermaid-svg-YUKiv9eL01taao3I .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-YUKiv9eL01taao3I .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-YUKiv9eL01taao3I .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-YUKiv9eL01taao3I .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-YUKiv9eL01taao3I .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-YUKiv9eL01taao3I .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-YUKiv9eL01taao3I .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-YUKiv9eL01taao3I .cluster text{fill:#333;}#mermaid-svg-YUKiv9eL01taao3I .cluster span{color:#333;}#mermaid-svg-YUKiv9eL01taao3I div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-YUKiv9eL01taao3I .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-YUKiv9eL01taao3I rect.text{fill:none;stroke-width:0;}#mermaid-svg-YUKiv9eL01taao3I .icon-shape,#mermaid-svg-YUKiv9eL01taao3I .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-YUKiv9eL01taao3I .icon-shape p,#mermaid-svg-YUKiv9eL01taao3I .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-YUKiv9eL01taao3I .icon-shape .label rect,#mermaid-svg-YUKiv9eL01taao3I .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-YUKiv9eL01taao3I .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-YUKiv9eL01taao3I .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-YUKiv9eL01taao3I :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 完整细节图
观测
提取
存储
检索
决策
智能体
多视角图像
语义标签
记忆银行
任务推理
动作输出
简化概念图
探索
积累
复用
快递员
写字楼
活地图
下次配送

图注:左侧为简化概念图,用"快递员-写字楼-活地图"建立直觉。黄色节点代表输入/主体,蓝色节点代表环境/结构,紫色节点代表记忆结果,红色节点代表最终动作。右侧为完整细节图,展示 LMEE 的数据流:智能体(黄)接收多视角观测(蓝),经语义提取(绿)存入记忆银行(紫),检索后推理(绿)输出动作(红)。

很多人会误以为 LMEE 只是给传统导航任务加了一个"事后问答"环节。实际上,问答环节不是附加的测试,而是训练信号的一部分------通过要求智能体回答关于探索目标的属性、数量、位置、关系和状态五类问题,模型被迫在探索过程中主动收集和编码相关信息,而非被动地走完专家轨迹。这类似于一个学生如果知道课后会被提问,他在听课时就会主动做笔记,而不是仅仅跟着老师的思路走。

认知检查点:LMEE 的核心范式转变是从"任务完成即结束"的一次性评估,升级为"探索过程的记忆质量同样重要"的终身学习评估,通过多目标导航积累情景记忆,通过基于记忆的问答检验记忆利用能力。


1.1.1.2 记忆银行的数据结构:多模态 episodic memory 的组织方式

现在我们已经了解了 LMEE 的"快递员活地图"直觉,接下来看看这张地图在计算机里长什么样。在继续之前,我们先问一个问题:如果记忆只是一堆原始图像帧的堆叠,会发生什么?想象一个摄影师拍了 1000 张照片却不写备注------当他需要找到"三楼会议室的红色椅子"时,他只能一张张翻。这就是纯像素级记忆的检索灾难:存储冗余、检索低效、语义缺失。

LMEE 的记忆银行采用结构化三元组组织每一帧 episodic memory:

M={(pi,fi,oi)∣i=1,...,n} \mathcal{M} = \{(p_i, f_i, o_i) \mid i = 1, \ldots, n\} M={(pi,fi,oi)∣i=1,...,n}

这个公式如果翻译成图,画出来会是一个"三层抽屉柜":第一层抽屉(pip_ipi)存放位置信息(position,包括三维坐标和朝向),第二层抽屉(fif_ifi)存放图像特征(feature,由图像标注模型生成的语义标签和 CLIP 特征),第三层抽屉(oio_ioi)存放原始观测(observation,即 RGB 图像本身)。当智能体需要检索时,它不需要打开所有抽屉,而是根据查询条件只打开对应的层。

核心结论 :记忆银行以三元组 (pi,fi,oi)(p_i, f_i, o_i)(pi,fi,oi) 为原子单元,分别存储空间位置、语义特征和原始观测,支持基于位置、基于语义和基于相似度的多模态检索。

实现细节 :图像标注使用 Recognize Anything Model(RAM)为每帧观测生成物体类别标签,构建文本描述。位置 pip_ipi 包含智能体在 Habitat-Sim 模拟器中的三维坐标 (x,y,z)(x, y, z)(x,y,z) 和朝向角 (θ,ϕ)(\theta, \phi)(θ,ϕ)。特征 fif_ifi 融合 RAM 文本标签与 CLIP 视觉特征,形成多模态嵌入向量。
#mermaid-svg-0fTJpfNV8lGBZJSF{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-0fTJpfNV8lGBZJSF .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-0fTJpfNV8lGBZJSF .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-0fTJpfNV8lGBZJSF .error-icon{fill:#552222;}#mermaid-svg-0fTJpfNV8lGBZJSF .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-0fTJpfNV8lGBZJSF .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-0fTJpfNV8lGBZJSF .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-0fTJpfNV8lGBZJSF .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-0fTJpfNV8lGBZJSF .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-0fTJpfNV8lGBZJSF .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-0fTJpfNV8lGBZJSF .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-0fTJpfNV8lGBZJSF .marker{fill:#333333;stroke:#333333;}#mermaid-svg-0fTJpfNV8lGBZJSF .marker.cross{stroke:#333333;}#mermaid-svg-0fTJpfNV8lGBZJSF svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-0fTJpfNV8lGBZJSF p{margin:0;}#mermaid-svg-0fTJpfNV8lGBZJSF .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-0fTJpfNV8lGBZJSF .cluster-label text{fill:#333;}#mermaid-svg-0fTJpfNV8lGBZJSF .cluster-label span{color:#333;}#mermaid-svg-0fTJpfNV8lGBZJSF .cluster-label span p{background-color:transparent;}#mermaid-svg-0fTJpfNV8lGBZJSF .label text,#mermaid-svg-0fTJpfNV8lGBZJSF span{fill:#333;color:#333;}#mermaid-svg-0fTJpfNV8lGBZJSF .node rect,#mermaid-svg-0fTJpfNV8lGBZJSF .node circle,#mermaid-svg-0fTJpfNV8lGBZJSF .node ellipse,#mermaid-svg-0fTJpfNV8lGBZJSF .node polygon,#mermaid-svg-0fTJpfNV8lGBZJSF .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-0fTJpfNV8lGBZJSF .rough-node .label text,#mermaid-svg-0fTJpfNV8lGBZJSF .node .label text,#mermaid-svg-0fTJpfNV8lGBZJSF .image-shape .label,#mermaid-svg-0fTJpfNV8lGBZJSF .icon-shape .label{text-anchor:middle;}#mermaid-svg-0fTJpfNV8lGBZJSF .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-0fTJpfNV8lGBZJSF .rough-node .label,#mermaid-svg-0fTJpfNV8lGBZJSF .node .label,#mermaid-svg-0fTJpfNV8lGBZJSF .image-shape .label,#mermaid-svg-0fTJpfNV8lGBZJSF .icon-shape .label{text-align:center;}#mermaid-svg-0fTJpfNV8lGBZJSF .node.clickable{cursor:pointer;}#mermaid-svg-0fTJpfNV8lGBZJSF .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-0fTJpfNV8lGBZJSF .arrowheadPath{fill:#333333;}#mermaid-svg-0fTJpfNV8lGBZJSF .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-0fTJpfNV8lGBZJSF .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-0fTJpfNV8lGBZJSF .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-0fTJpfNV8lGBZJSF .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-0fTJpfNV8lGBZJSF .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-0fTJpfNV8lGBZJSF .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-0fTJpfNV8lGBZJSF .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-0fTJpfNV8lGBZJSF .cluster text{fill:#333;}#mermaid-svg-0fTJpfNV8lGBZJSF .cluster span{color:#333;}#mermaid-svg-0fTJpfNV8lGBZJSF div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-0fTJpfNV8lGBZJSF .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-0fTJpfNV8lGBZJSF rect.text{fill:none;stroke-width:0;}#mermaid-svg-0fTJpfNV8lGBZJSF .icon-shape,#mermaid-svg-0fTJpfNV8lGBZJSF .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-0fTJpfNV8lGBZJSF .icon-shape p,#mermaid-svg-0fTJpfNV8lGBZJSF .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-0fTJpfNV8lGBZJSF .icon-shape .label rect,#mermaid-svg-0fTJpfNV8lGBZJSF .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-0fTJpfNV8lGBZJSF .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-0fTJpfNV8lGBZJSF .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-0fTJpfNV8lGBZJSF :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 记忆银行结构图
记忆单元 i
位置 pi
特征 fi
观测 oi
三维坐标
朝向角度
RAM 标签
CLIP 嵌入
RGB 图像

图注:本图展示记忆银行的原子结构。黄色节点为记忆单元(输入/原始数据),蓝色节点为空间结构层(位置信息),绿色节点为运算/语义层(特征提取),紫色节点为结果/观测层(原始数据)。

对于已有向量数据库经验的读者,可以把记忆银行理解为"带空间索引的多模态向量库":pip_ipi 提供空间索引(R-tree 或网格哈希),fif_ifi 提供语义索引(向量相似度),oio_ioi 提供原始数据回查。检索时可以根据任务需求选择索引策略------当问题问"沙发在哪里"时优先用语义索引,当问题问"你在我身后看到了什么"时优先用空间索引。

很多人会误以为记忆银行越大越好,所有历史观测都应该永久保留。实际上,未经筛选的记忆会导致检索噪声------当记忆库包含 1000 帧时,其中可能有 800 帧是走廊墙壁的重复观测。LMEE 通过"连续动作窗口"机制进行下采样:将连续相同的动作(如连续 10 步"前进")压缩为一个代表帧,既保留关键信息又降低存储冗余。

复制代码
function 记忆银行构建(探索轨迹, 压缩窗口大小 w)
    输入: 轨迹序列 [(观测 o, 动作 a, 位置 p)]

    初始化 记忆银行 M = ∅
    初始化 当前窗口 W = []

    for 每一步 (o_t, a_t, p_t) in 轨迹 do
        # 对应图 1.1.1.2 记忆银行结构图中的"观测 oi"节点
        特征 f_t = RAM标注(o_t) + CLIP编码(o_t)
        # 此时 f_t 为语义标签列表 + 向量 [D], D=512

        if W 非空 && a_t == W[-1].动作 then
            W.append((o_t, f_t, p_t))
            # 此时 W 为同动作连续帧集合
        else
            if W 非空 then
                # 对应图 1.1.1.2 中的"记忆单元 i"节点
                代表帧 = W[w/2]  # 取窗口中间帧
                M.add((代表帧.位置, 代表帧.特征, 代表帧.观测))
                # 此时 M 增加一个三元组记忆单元
            end
            W = [(o_t, f_t, p_t)]
        end
    end

    返回 M
    # 此时 M 为压缩后的结构化记忆银行
end

图码对应:上述伪代码中的循环和条件分支对应记忆银行结构图(图 1.1.1.2)中的记忆单元构建流程------连续动作窗口压缩对应"观测 oi"到"记忆单元 i"的聚合过程。

认知检查点 :记忆银行不是原始图像的堆叠,而是结构化三元组 (p,f,o)(p, f, o)(p,f,o) 的集合,通过空间索引、语义索引和动作窗口压缩三重机制,实现高效的多模态检索与存储优化。


1.1.1.3 MemoryExplorer 的总体架构:MLLM + RL 的端到端训练

现在我们已经了解了记忆银行的数据结构,接下来看看 MemoryExplorer 如何利用这些记忆进行决策。在继续之前,先想象一个场景:一个探险家站在森林入口,手里有一张模糊的藏宝图(任务指令),眼前有三条路(多视角观测),腰间有一个日记本(记忆银行)。他该怎么做?传统方法(如模仿学习)会让他背诵专家探险家的路线------但这条路线可能不适用于今天的天气。MemoryExplorer 的做法是:让他自己决定何时翻开日记本、如何结合日记内容选择下一步。

核心结论:MemoryExplorer 是一个端到端的多模态大语言模型(MLLM),通过强化学习微调(RFT)训练其主动调用记忆检索工具、分析当前状态与记忆内容、并输出动作、前沿选择和问答的三元决策。

实现细节:基础模型采用 Qwen2.5-VL-7B-Instruct,训练框架基于 EasyR1(VERL 的简化版)。训练在 8 张 NVIDIA H200 GPU 上进行 160 步,全局 batch size 为 128,学习率 1e-6,KL 惩罚系数 0.1 以保证训练稳定性。
#mermaid-svg-WkOdz4U6IvqAKyRm{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-WkOdz4U6IvqAKyRm .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-WkOdz4U6IvqAKyRm .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-WkOdz4U6IvqAKyRm .error-icon{fill:#552222;}#mermaid-svg-WkOdz4U6IvqAKyRm .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-WkOdz4U6IvqAKyRm .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-WkOdz4U6IvqAKyRm .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-WkOdz4U6IvqAKyRm .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-WkOdz4U6IvqAKyRm .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-WkOdz4U6IvqAKyRm .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-WkOdz4U6IvqAKyRm .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-WkOdz4U6IvqAKyRm .marker{fill:#333333;stroke:#333333;}#mermaid-svg-WkOdz4U6IvqAKyRm .marker.cross{stroke:#333333;}#mermaid-svg-WkOdz4U6IvqAKyRm svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-WkOdz4U6IvqAKyRm p{margin:0;}#mermaid-svg-WkOdz4U6IvqAKyRm .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-WkOdz4U6IvqAKyRm .cluster-label text{fill:#333;}#mermaid-svg-WkOdz4U6IvqAKyRm .cluster-label span{color:#333;}#mermaid-svg-WkOdz4U6IvqAKyRm .cluster-label span p{background-color:transparent;}#mermaid-svg-WkOdz4U6IvqAKyRm .label text,#mermaid-svg-WkOdz4U6IvqAKyRm span{fill:#333;color:#333;}#mermaid-svg-WkOdz4U6IvqAKyRm .node rect,#mermaid-svg-WkOdz4U6IvqAKyRm .node circle,#mermaid-svg-WkOdz4U6IvqAKyRm .node ellipse,#mermaid-svg-WkOdz4U6IvqAKyRm .node polygon,#mermaid-svg-WkOdz4U6IvqAKyRm .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-WkOdz4U6IvqAKyRm .rough-node .label text,#mermaid-svg-WkOdz4U6IvqAKyRm .node .label text,#mermaid-svg-WkOdz4U6IvqAKyRm .image-shape .label,#mermaid-svg-WkOdz4U6IvqAKyRm .icon-shape .label{text-anchor:middle;}#mermaid-svg-WkOdz4U6IvqAKyRm .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-WkOdz4U6IvqAKyRm .rough-node .label,#mermaid-svg-WkOdz4U6IvqAKyRm .node .label,#mermaid-svg-WkOdz4U6IvqAKyRm .image-shape .label,#mermaid-svg-WkOdz4U6IvqAKyRm .icon-shape .label{text-align:center;}#mermaid-svg-WkOdz4U6IvqAKyRm .node.clickable{cursor:pointer;}#mermaid-svg-WkOdz4U6IvqAKyRm .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-WkOdz4U6IvqAKyRm .arrowheadPath{fill:#333333;}#mermaid-svg-WkOdz4U6IvqAKyRm .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-WkOdz4U6IvqAKyRm .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-WkOdz4U6IvqAKyRm .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-WkOdz4U6IvqAKyRm .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-WkOdz4U6IvqAKyRm .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-WkOdz4U6IvqAKyRm .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-WkOdz4U6IvqAKyRm .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-WkOdz4U6IvqAKyRm .cluster text{fill:#333;}#mermaid-svg-WkOdz4U6IvqAKyRm .cluster span{color:#333;}#mermaid-svg-WkOdz4U6IvqAKyRm div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-WkOdz4U6IvqAKyRm .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-WkOdz4U6IvqAKyRm rect.text{fill:none;stroke-width:0;}#mermaid-svg-WkOdz4U6IvqAKyRm .icon-shape,#mermaid-svg-WkOdz4U6IvqAKyRm .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-WkOdz4U6IvqAKyRm .icon-shape p,#mermaid-svg-WkOdz4U6IvqAKyRm .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-WkOdz4U6IvqAKyRm .icon-shape .label rect,#mermaid-svg-WkOdz4U6IvqAKyRm .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-WkOdz4U6IvqAKyRm .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-WkOdz4U6IvqAKyRm .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-WkOdz4U6IvqAKyRm :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 总体结构图
实线
实线
实线
虚线
虚线
实线
实线
实线
任务指令 I
MLLM 策略网络
多视角观测 O
目标问题 Q
记忆银行 M
检索工具 R
动作 S
前沿 F
答案 A

图注:总体结构图展示 MemoryExplorer 的输入输出流。黄色节点为输入数据(任务指令、观测、问题),蓝色粗线节点为核心策略网络(MLLM),紫色节点为外部记忆,绿色节点为检索运算,红色节点为最终输出(动作、前沿、答案)。实线表示数据流,虚线表示控制流/工具调用。

策略模型可以形式化表示为:

πθ(y∣I,O,Q;M) \pi_{\theta}(y \mid I, O, Q; M) πθ(y∣I,O,Q;M)

其中 y=(S,F,A)y = (S, F, A)y=(S,F,A) 为输出三元组,θ\thetaθ 为 MLLM 的可训练参数。这个公式如果翻译成图,画出来会是一个"三叉路口":输入 (I,O,Q)(I, O, Q)(I,O,Q) 是一条主干道,记忆检索 MMM 是一条可选择的岔路,模型在路口处决定何时转入岔路获取额外信息,最终输出在三个方向分流为动作 SSS、前沿 FFF 和答案 AAA。

很多人会误以为 MemoryExplorer 是"先检索记忆,再输入 MLLM 做推理"的两阶段流水线。实际上,检索工具的调用是由 MLLM 自己生成的代码触发的------模型输出中包含类似 retrieve_memory(query="sofa") 的函数调用,外部工具执行后返回结果并重新注入上下文。这种"工具使用即策略一部分"的设计,使得模型学会了"何时该查记忆、何时该靠自己"的元策略,而非硬编码的检索流程。
#mermaid-svg-odkos5LsTjhsPSyV{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-odkos5LsTjhsPSyV .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-odkos5LsTjhsPSyV .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-odkos5LsTjhsPSyV .error-icon{fill:#552222;}#mermaid-svg-odkos5LsTjhsPSyV .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-odkos5LsTjhsPSyV .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-odkos5LsTjhsPSyV .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-odkos5LsTjhsPSyV .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-odkos5LsTjhsPSyV .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-odkos5LsTjhsPSyV .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-odkos5LsTjhsPSyV .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-odkos5LsTjhsPSyV .marker{fill:#333333;stroke:#333333;}#mermaid-svg-odkos5LsTjhsPSyV .marker.cross{stroke:#333333;}#mermaid-svg-odkos5LsTjhsPSyV svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-odkos5LsTjhsPSyV p{margin:0;}#mermaid-svg-odkos5LsTjhsPSyV .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-odkos5LsTjhsPSyV .cluster-label text{fill:#333;}#mermaid-svg-odkos5LsTjhsPSyV .cluster-label span{color:#333;}#mermaid-svg-odkos5LsTjhsPSyV .cluster-label span p{background-color:transparent;}#mermaid-svg-odkos5LsTjhsPSyV .label text,#mermaid-svg-odkos5LsTjhsPSyV span{fill:#333;color:#333;}#mermaid-svg-odkos5LsTjhsPSyV .node rect,#mermaid-svg-odkos5LsTjhsPSyV .node circle,#mermaid-svg-odkos5LsTjhsPSyV .node ellipse,#mermaid-svg-odkos5LsTjhsPSyV .node polygon,#mermaid-svg-odkos5LsTjhsPSyV .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-odkos5LsTjhsPSyV .rough-node .label text,#mermaid-svg-odkos5LsTjhsPSyV .node .label text,#mermaid-svg-odkos5LsTjhsPSyV .image-shape .label,#mermaid-svg-odkos5LsTjhsPSyV .icon-shape .label{text-anchor:middle;}#mermaid-svg-odkos5LsTjhsPSyV .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-odkos5LsTjhsPSyV .rough-node .label,#mermaid-svg-odkos5LsTjhsPSyV .node .label,#mermaid-svg-odkos5LsTjhsPSyV .image-shape .label,#mermaid-svg-odkos5LsTjhsPSyV .icon-shape .label{text-align:center;}#mermaid-svg-odkos5LsTjhsPSyV .node.clickable{cursor:pointer;}#mermaid-svg-odkos5LsTjhsPSyV .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-odkos5LsTjhsPSyV .arrowheadPath{fill:#333333;}#mermaid-svg-odkos5LsTjhsPSyV .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-odkos5LsTjhsPSyV .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-odkos5LsTjhsPSyV .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-odkos5LsTjhsPSyV .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-odkos5LsTjhsPSyV .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-odkos5LsTjhsPSyV .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-odkos5LsTjhsPSyV .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-odkos5LsTjhsPSyV .cluster text{fill:#333;}#mermaid-svg-odkos5LsTjhsPSyV .cluster span{color:#333;}#mermaid-svg-odkos5LsTjhsPSyV div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-odkos5LsTjhsPSyV .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-odkos5LsTjhsPSyV rect.text{fill:none;stroke-width:0;}#mermaid-svg-odkos5LsTjhsPSyV .icon-shape,#mermaid-svg-odkos5LsTjhsPSyV .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-odkos5LsTjhsPSyV .icon-shape p,#mermaid-svg-odkos5LsTjhsPSyV .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-odkos5LsTjhsPSyV .icon-shape .label rect,#mermaid-svg-odkos5LsTjhsPSyV .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-odkos5LsTjhsPSyV .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-odkos5LsTjhsPSyV .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-odkos5LsTjhsPSyV :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 红色虚线
状态演变图
步骤 t
生成检索查询
工具返回记忆片段
融合记忆与观测
输出动作与答案
步骤 t+1
错误路径
无检索直接猜测
幻觉答案

图注 :状态演变图展示单步决策的动态过程。黄色节点为时间步输入,绿色节点为检索运算,紫色节点为记忆结果,蓝色节点为融合推理,红色节点为最终输出。红色虚线分支标注常见错误路径:跳过检索直接猜测导致幻觉。使用 ==> 表示状态转移。

认知检查点:MemoryExplorer 的端到端架构将记忆检索工具的调用权交给 MLLM 自身,通过强化学习训练模型学会"何时检索、检索什么、如何利用"的元策略,而非预设的固定检索流程。


1.1.1.4 记忆检索机制:从被动过滤到主动查询的范式转变

现在我们已经了解了 MemoryExplorer 的总体架构,接下来深入它的"记忆调用"能力。在继续之前,先问一个关键问题:如果记忆检索是被动过滤(如 3D-Mem 的做法),会发生什么?想象一个图书馆管理员,他按照固定规则("只保留与目标类别相关的书")预先筛选书架。当读者问"找出所有红色封面的书"时,管理员发现预筛选时只保留了"小说类",而红色封面的书可能在"艺术类"------这就是被动过滤的局限:检索策略在探索开始前就被硬编码,无法适应动态变化的查询需求。

LMEE 提出了 RA-Mem(Retrieval-Augmented Memory)作为中间方案,进而升级为 MemoryExplorer 的主动检索。两者的区别在于:

  • 3D-Mem(被动过滤):基于物体类别相关性预筛选记忆,将记忆库裁剪至上下文窗口可容纳的大小。这相当于"先过滤,后推理"------如果过滤条件与真实查询不匹配,关键记忆会被提前丢弃。
  • RA-Mem(半主动查询):模型根据当前任务和观测独立生成查询文本,通过特征相似度匹配检索最相关的记忆。这相当于"先推理需要什么,再检索"------但查询生成仍依赖 MLLM 的静态推理能力,没有针对探索任务优化。
  • MemoryExplorer(主动强化检索):在 RA-Mem 基础上引入强化学习微调,模型不仅生成查询,还学会了在何时生成查询、如何根据检索结果调整探索策略。这相当于"边探索边学习如何更好地查资料"。

核心结论:记忆检索从"被动预过滤"演进到"主动查询生成"再演进到"强化学习优化的主动查询",每一级演进都增加了检索策略与任务上下文的动态适配能力。

实现细节:RA-Mem 的查询生成基于任务指令和当前观测,使用 MLLM 生成自然语言查询文本(如"寻找客厅区域的沙发记忆"),然后通过 CLIP 特征相似度在记忆银行中检索 Top-K 相关帧。MemoryExplorer 在此基础上,通过 GRPO 强化学习训练模型优化查询质量------如果查询召回的记忆帮助正确回答了问题,则获得正向奖励。
#mermaid-svg-qe52QBpLMvPX44Gg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-qe52QBpLMvPX44Gg .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-qe52QBpLMvPX44Gg .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-qe52QBpLMvPX44Gg .error-icon{fill:#552222;}#mermaid-svg-qe52QBpLMvPX44Gg .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-qe52QBpLMvPX44Gg .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-qe52QBpLMvPX44Gg .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-qe52QBpLMvPX44Gg .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-qe52QBpLMvPX44Gg .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-qe52QBpLMvPX44Gg .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-qe52QBpLMvPX44Gg .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-qe52QBpLMvPX44Gg .marker{fill:#333333;stroke:#333333;}#mermaid-svg-qe52QBpLMvPX44Gg .marker.cross{stroke:#333333;}#mermaid-svg-qe52QBpLMvPX44Gg svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-qe52QBpLMvPX44Gg p{margin:0;}#mermaid-svg-qe52QBpLMvPX44Gg .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-qe52QBpLMvPX44Gg .cluster-label text{fill:#333;}#mermaid-svg-qe52QBpLMvPX44Gg .cluster-label span{color:#333;}#mermaid-svg-qe52QBpLMvPX44Gg .cluster-label span p{background-color:transparent;}#mermaid-svg-qe52QBpLMvPX44Gg .label text,#mermaid-svg-qe52QBpLMvPX44Gg span{fill:#333;color:#333;}#mermaid-svg-qe52QBpLMvPX44Gg .node rect,#mermaid-svg-qe52QBpLMvPX44Gg .node circle,#mermaid-svg-qe52QBpLMvPX44Gg .node ellipse,#mermaid-svg-qe52QBpLMvPX44Gg .node polygon,#mermaid-svg-qe52QBpLMvPX44Gg .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-qe52QBpLMvPX44Gg .rough-node .label text,#mermaid-svg-qe52QBpLMvPX44Gg .node .label text,#mermaid-svg-qe52QBpLMvPX44Gg .image-shape .label,#mermaid-svg-qe52QBpLMvPX44Gg .icon-shape .label{text-anchor:middle;}#mermaid-svg-qe52QBpLMvPX44Gg .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-qe52QBpLMvPX44Gg .rough-node .label,#mermaid-svg-qe52QBpLMvPX44Gg .node .label,#mermaid-svg-qe52QBpLMvPX44Gg .image-shape .label,#mermaid-svg-qe52QBpLMvPX44Gg .icon-shape .label{text-align:center;}#mermaid-svg-qe52QBpLMvPX44Gg .node.clickable{cursor:pointer;}#mermaid-svg-qe52QBpLMvPX44Gg .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-qe52QBpLMvPX44Gg .arrowheadPath{fill:#333333;}#mermaid-svg-qe52QBpLMvPX44Gg .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-qe52QBpLMvPX44Gg .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-qe52QBpLMvPX44Gg .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-qe52QBpLMvPX44Gg .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-qe52QBpLMvPX44Gg .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-qe52QBpLMvPX44Gg .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-qe52QBpLMvPX44Gg .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-qe52QBpLMvPX44Gg .cluster text{fill:#333;}#mermaid-svg-qe52QBpLMvPX44Gg .cluster span{color:#333;}#mermaid-svg-qe52QBpLMvPX44Gg div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-qe52QBpLMvPX44Gg .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-qe52QBpLMvPX44Gg rect.text{fill:none;stroke-width:0;}#mermaid-svg-qe52QBpLMvPX44Gg .icon-shape,#mermaid-svg-qe52QBpLMvPX44Gg .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-qe52QBpLMvPX44Gg .icon-shape p,#mermaid-svg-qe52QBpLMvPX44Gg .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-qe52QBpLMvPX44Gg .icon-shape .label rect,#mermaid-svg-qe52QBpLMvPX44Gg .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-qe52QBpLMvPX44Gg .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-qe52QBpLMvPX44Gg .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-qe52QBpLMvPX44Gg :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 演化路径图
问题: 预过滤丢失关键记忆
问题: 查询质量无优化
3D-Mem 被动过滤
RA-Mem 主动查询
MemoryExplorer 强化检索
端到端策略优化

图注:演化路径图展示记忆检索机制的三级演进。黄色节点为原始方案(3D-Mem),蓝色节点为中间迭代(RA-Mem),绿色节点为强化优化阶段(MemoryExplorer),紫色节点为最终工业级方案。每步标注了前一级"解决了什么问题"。
#mermaid-svg-npk7nToo8G2yq5lw{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-npk7nToo8G2yq5lw .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-npk7nToo8G2yq5lw .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-npk7nToo8G2yq5lw .error-icon{fill:#552222;}#mermaid-svg-npk7nToo8G2yq5lw .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-npk7nToo8G2yq5lw .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-npk7nToo8G2yq5lw .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-npk7nToo8G2yq5lw .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-npk7nToo8G2yq5lw .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-npk7nToo8G2yq5lw .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-npk7nToo8G2yq5lw .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-npk7nToo8G2yq5lw .marker{fill:#333333;stroke:#333333;}#mermaid-svg-npk7nToo8G2yq5lw .marker.cross{stroke:#333333;}#mermaid-svg-npk7nToo8G2yq5lw svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-npk7nToo8G2yq5lw p{margin:0;}#mermaid-svg-npk7nToo8G2yq5lw .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-npk7nToo8G2yq5lw .cluster-label text{fill:#333;}#mermaid-svg-npk7nToo8G2yq5lw .cluster-label span{color:#333;}#mermaid-svg-npk7nToo8G2yq5lw .cluster-label span p{background-color:transparent;}#mermaid-svg-npk7nToo8G2yq5lw .label text,#mermaid-svg-npk7nToo8G2yq5lw span{fill:#333;color:#333;}#mermaid-svg-npk7nToo8G2yq5lw .node rect,#mermaid-svg-npk7nToo8G2yq5lw .node circle,#mermaid-svg-npk7nToo8G2yq5lw .node ellipse,#mermaid-svg-npk7nToo8G2yq5lw .node polygon,#mermaid-svg-npk7nToo8G2yq5lw .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-npk7nToo8G2yq5lw .rough-node .label text,#mermaid-svg-npk7nToo8G2yq5lw .node .label text,#mermaid-svg-npk7nToo8G2yq5lw .image-shape .label,#mermaid-svg-npk7nToo8G2yq5lw .icon-shape .label{text-anchor:middle;}#mermaid-svg-npk7nToo8G2yq5lw .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-npk7nToo8G2yq5lw .rough-node .label,#mermaid-svg-npk7nToo8G2yq5lw .node .label,#mermaid-svg-npk7nToo8G2yq5lw .image-shape .label,#mermaid-svg-npk7nToo8G2yq5lw .icon-shape .label{text-align:center;}#mermaid-svg-npk7nToo8G2yq5lw .node.clickable{cursor:pointer;}#mermaid-svg-npk7nToo8G2yq5lw .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-npk7nToo8G2yq5lw .arrowheadPath{fill:#333333;}#mermaid-svg-npk7nToo8G2yq5lw .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-npk7nToo8G2yq5lw .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-npk7nToo8G2yq5lw .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-npk7nToo8G2yq5lw .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-npk7nToo8G2yq5lw .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-npk7nToo8G2yq5lw .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-npk7nToo8G2yq5lw .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-npk7nToo8G2yq5lw .cluster text{fill:#333;}#mermaid-svg-npk7nToo8G2yq5lw .cluster span{color:#333;}#mermaid-svg-npk7nToo8G2yq5lw div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-npk7nToo8G2yq5lw .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-npk7nToo8G2yq5lw rect.text{fill:none;stroke-width:0;}#mermaid-svg-npk7nToo8G2yq5lw .icon-shape,#mermaid-svg-npk7nToo8G2yq5lw .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-npk7nToo8G2yq5lw .icon-shape p,#mermaid-svg-npk7nToo8G2yq5lw .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-npk7nToo8G2yq5lw .icon-shape .label rect,#mermaid-svg-npk7nToo8G2yq5lw .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-npk7nToo8G2yq5lw .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-npk7nToo8G2yq5lw .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-npk7nToo8G2yq5lw :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 决策分支图




红色虚线
红色虚线
当前观测
是否需要检索
生成查询文本
直接推理
执行检索工具
检索结果是否有用
融合记忆决策
重新生成查询
幻觉风险
循环检索开销

图注:决策分支图展示检索策略的选择逻辑。黄色节点为输入,蓝色节点为决策点,绿色节点为检索运算,紫色节点为成功结果,红色虚线节点为错误/退化路径(幻觉风险、循环开销)。

复制代码
function 主动记忆检索(任务 I, 观测 O, 问题 Q, 记忆银行 M)
    # 对应图 1.1.1.4 决策分支图中的"是否需要检索"节点
    查询文本 q = MLLM生成查询(I, O, Q)
    # 此时 q 为自然语言查询字符串

    # 对应图 1.1.1.4 中的"执行检索工具"节点
    候选记忆 C = 特征相似度检索(M, CLIP编码(q), topk=3)
    # 此时 C 为 Top-3 记忆三元组列表 [(p, f, o)]

    if C 为空 then
        # 对应图 1.1.1.4 中的"重新生成查询"路径
        q' = MLLM重生成查询(I, O, Q, 反馈="无结果")
        C = 特征相似度检索(M, CLIP编码(q'), topk=5)
        # 此时 C 扩大检索范围至 Top-5
    end

    返回 C
    # 此时返回的记忆片段将注入 MLLM 上下文
end

图码对应:伪代码中的条件分支对应决策分支图(图 1.1.1.4)中的"检索结果是否有用"判断和两条分支路径。

很多人会误以为主动查询只是让模型"多写几个关键词"。实际上,查询生成是一个策略行为------模型需要权衡"检索成本"(增加延迟和上下文长度)与"检索收益"(提高答案准确率)。在强化学习的框架下,模型学会了在"有把握直接回答"和"没把握需要查资料"之间做出最优决策,这种元认知能力是传统静态方法无法获得的。

认知检查点:记忆检索的范式演进经历了"被动预过滤 → 半主动查询生成 → 强化学习优化主动查询"三级跳,核心差异在于检索策略是否由任务上下文动态驱动、是否经过端到端优化。


1.1.1.5 多任务奖励函数:动作、前沿与问答的统一优化

现在我们已经了解了记忆检索如何从被动走向主动,接下来看看强化学习是如何训练这种主动能力的。在继续之前,先问一个关键问题:如果奖励函数只关注"是否到达目标",会发生什么?想象一个学生在考试中只按"最终答案是否正确"评分------他会学会猜答案、抄答案,但永远不会学会"如何思考"。在具身探索中,纯结果奖励会导致策略走捷径:模型可能随机探索直到偶然碰到目标,而不是学会系统地搜索和记忆。

MemoryExplorer 设计了多任务奖励函数(Multi-Task Reward),将探索过程分解为三个可独立评估的维度:

rtotal=α⋅raction+β⋅rfrontier+γ⋅ranswer+δ⋅rformat+ϵ⋅rconsistency r_{total} = \alpha \cdot r_{action} + \beta \cdot r_{frontier} + \gamma \cdot r_{answer} + \delta \cdot r_{format} + \epsilon \cdot r_{consistency} rtotal=α⋅raction+β⋅rfrontier+γ⋅ranswer+δ⋅rformat+ϵ⋅rconsistency

这个公式如果翻译成图,画出来会是一个"五瓣花朵":中心是总奖励(rtotalr_{total}rtotal),五片花瓣分别是动作正确性(ractionr_{action}raction)、前沿选择质量(rfrontierr_{frontier}rfrontier)、答案准确性(ranswerr_{answer}ranswer)、输出格式合规性(rformatr_{format}rformat)和一致性约束(rconsistencyr_{consistency}rconsistency)。每片花瓣的大小由对应的系数(α,β,γ,δ,ϵ\alpha, \beta, \gamma, \delta, \epsilonα,β,γ,δ,ϵ)调节,确保模型不会为了答对问题而乱走,也不会为了走到目标而答错问题。

核心结论:多任务奖励函数将单一的结果奖励拆解为动作、前沿、问答、格式和一致性五个正交维度,通过加权求和实现探索行为与认知能力的统一优化。

实现细节 :各奖励分量的权重设置如下:当工具调用成功时 α=1.2\alpha = 1.2α=1.2;ranswerr_{answer}ranswer 和 rformatr_{format}rformat 的缩放因子为 0.5;ractionr_{action}raction 和 rfrontierr_{frontier}rfrontier 的缩放因子为 0.6(当工具调用失败时);一致性系数 c=0.5c = 0.5c=0.5。Top-K 采样中的 k=3k = 3k=3。
#mermaid-svg-m0LsOVnVpUeUtPff{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-m0LsOVnVpUeUtPff .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-m0LsOVnVpUeUtPff .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-m0LsOVnVpUeUtPff .error-icon{fill:#552222;}#mermaid-svg-m0LsOVnVpUeUtPff .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-m0LsOVnVpUeUtPff .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-m0LsOVnVpUeUtPff .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-m0LsOVnVpUeUtPff .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-m0LsOVnVpUeUtPff .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-m0LsOVnVpUeUtPff .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-m0LsOVnVpUeUtPff .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-m0LsOVnVpUeUtPff .marker{fill:#333333;stroke:#333333;}#mermaid-svg-m0LsOVnVpUeUtPff .marker.cross{stroke:#333333;}#mermaid-svg-m0LsOVnVpUeUtPff svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-m0LsOVnVpUeUtPff p{margin:0;}#mermaid-svg-m0LsOVnVpUeUtPff .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-m0LsOVnVpUeUtPff .cluster-label text{fill:#333;}#mermaid-svg-m0LsOVnVpUeUtPff .cluster-label span{color:#333;}#mermaid-svg-m0LsOVnVpUeUtPff .cluster-label span p{background-color:transparent;}#mermaid-svg-m0LsOVnVpUeUtPff .label text,#mermaid-svg-m0LsOVnVpUeUtPff span{fill:#333;color:#333;}#mermaid-svg-m0LsOVnVpUeUtPff .node rect,#mermaid-svg-m0LsOVnVpUeUtPff .node circle,#mermaid-svg-m0LsOVnVpUeUtPff .node ellipse,#mermaid-svg-m0LsOVnVpUeUtPff .node polygon,#mermaid-svg-m0LsOVnVpUeUtPff .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-m0LsOVnVpUeUtPff .rough-node .label text,#mermaid-svg-m0LsOVnVpUeUtPff .node .label text,#mermaid-svg-m0LsOVnVpUeUtPff .image-shape .label,#mermaid-svg-m0LsOVnVpUeUtPff .icon-shape .label{text-anchor:middle;}#mermaid-svg-m0LsOVnVpUeUtPff .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-m0LsOVnVpUeUtPff .rough-node .label,#mermaid-svg-m0LsOVnVpUeUtPff .node .label,#mermaid-svg-m0LsOVnVpUeUtPff .image-shape .label,#mermaid-svg-m0LsOVnVpUeUtPff .icon-shape .label{text-align:center;}#mermaid-svg-m0LsOVnVpUeUtPff .node.clickable{cursor:pointer;}#mermaid-svg-m0LsOVnVpUeUtPff .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-m0LsOVnVpUeUtPff .arrowheadPath{fill:#333333;}#mermaid-svg-m0LsOVnVpUeUtPff .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-m0LsOVnVpUeUtPff .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-m0LsOVnVpUeUtPff .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-m0LsOVnVpUeUtPff .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-m0LsOVnVpUeUtPff .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-m0LsOVnVpUeUtPff .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-m0LsOVnVpUeUtPff .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-m0LsOVnVpUeUtPff .cluster text{fill:#333;}#mermaid-svg-m0LsOVnVpUeUtPff .cluster span{color:#333;}#mermaid-svg-m0LsOVnVpUeUtPff div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-m0LsOVnVpUeUtPff .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-m0LsOVnVpUeUtPff rect.text{fill:none;stroke-width:0;}#mermaid-svg-m0LsOVnVpUeUtPff .icon-shape,#mermaid-svg-m0LsOVnVpUeUtPff .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-m0LsOVnVpUeUtPff .icon-shape p,#mermaid-svg-m0LsOVnVpUeUtPff .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-m0LsOVnVpUeUtPff .icon-shape .label rect,#mermaid-svg-m0LsOVnVpUeUtPff .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-m0LsOVnVpUeUtPff .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-m0LsOVnVpUeUtPff .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-m0LsOVnVpUeUtPff :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 因果链图
虚线
虚线
虚线
虚线
虚线
实线
实线
实线
实线
实线
实线
动作预测正确
r_action 正向
前沿选择合理
r_frontier 正向
答案准确
r_answer 正向
格式合规
r_format 正向
一致性满足
r_consistency 正向
r_total 聚合
策略梯度更新

图注:因果链图展示多任务奖励的聚合逻辑。黄色节点为原因(各任务维度的正确性),绿色节点为中间影响(各奖励分量),紫色粗线节点为结果(总奖励聚合),红色节点为最终策略更新。虚线表示推导关系(正确性→奖励),实线表示数据流(奖励→梯度)。

各奖励分量的具体含义:

  • ractionr_{action}raction:预测动作与专家轨迹或环境反馈的匹配度。在 Habitat-Sim 中,动作空间包括前进、左转、右转、停止等离散动作,以及连续动作窗口中的采样动作。
  • rfrontierr_{frontier}rfrontier:前沿点(frontier)选择的质量。前沿是已知空间与未知空间的边界,选择能最大化信息增益的前沿是主动探索的核心。奖励基于前沿选择后新观测到的区域面积或目标发现概率计算。
  • ranswerr_{answer}ranswer:基于记忆的问题回答准确性。对于开放式问题,使用 MLLM-Score(1~5 分制,由评估模型 Qwen3-VL-30B-A3B-Instruct 打分);对于选择题,使用标准准确率。
  • rformatr_{format}rformat:输出格式的合规性。MemoryExplorer 要求输出包含动作、前沿和答案三个字段,格式错误(如 JSON 解析失败)会受到惩罚。
  • rconsistencyr_{consistency}rconsistency:动作序列与问答答案的一致性。例如,如果模型回答"沙发在客厅",但下一步动作却走向厨房,则一致性奖励为负。

#mermaid-svg-8oKv2FTSFg6gfGJG{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-8oKv2FTSFg6gfGJG .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-8oKv2FTSFg6gfGJG .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-8oKv2FTSFg6gfGJG .error-icon{fill:#552222;}#mermaid-svg-8oKv2FTSFg6gfGJG .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-8oKv2FTSFg6gfGJG .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-8oKv2FTSFg6gfGJG .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-8oKv2FTSFg6gfGJG .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-8oKv2FTSFg6gfGJG .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-8oKv2FTSFg6gfGJG .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-8oKv2FTSFg6gfGJG .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-8oKv2FTSFg6gfGJG .marker{fill:#333333;stroke:#333333;}#mermaid-svg-8oKv2FTSFg6gfGJG .marker.cross{stroke:#333333;}#mermaid-svg-8oKv2FTSFg6gfGJG svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-8oKv2FTSFg6gfGJG p{margin:0;}#mermaid-svg-8oKv2FTSFg6gfGJG .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-8oKv2FTSFg6gfGJG .cluster-label text{fill:#333;}#mermaid-svg-8oKv2FTSFg6gfGJG .cluster-label span{color:#333;}#mermaid-svg-8oKv2FTSFg6gfGJG .cluster-label span p{background-color:transparent;}#mermaid-svg-8oKv2FTSFg6gfGJG .label text,#mermaid-svg-8oKv2FTSFg6gfGJG span{fill:#333;color:#333;}#mermaid-svg-8oKv2FTSFg6gfGJG .node rect,#mermaid-svg-8oKv2FTSFg6gfGJG .node circle,#mermaid-svg-8oKv2FTSFg6gfGJG .node ellipse,#mermaid-svg-8oKv2FTSFg6gfGJG .node polygon,#mermaid-svg-8oKv2FTSFg6gfGJG .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-8oKv2FTSFg6gfGJG .rough-node .label text,#mermaid-svg-8oKv2FTSFg6gfGJG .node .label text,#mermaid-svg-8oKv2FTSFg6gfGJG .image-shape .label,#mermaid-svg-8oKv2FTSFg6gfGJG .icon-shape .label{text-anchor:middle;}#mermaid-svg-8oKv2FTSFg6gfGJG .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-8oKv2FTSFg6gfGJG .rough-node .label,#mermaid-svg-8oKv2FTSFg6gfGJG .node .label,#mermaid-svg-8oKv2FTSFg6gfGJG .image-shape .label,#mermaid-svg-8oKv2FTSFg6gfGJG .icon-shape .label{text-align:center;}#mermaid-svg-8oKv2FTSFg6gfGJG .node.clickable{cursor:pointer;}#mermaid-svg-8oKv2FTSFg6gfGJG .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-8oKv2FTSFg6gfGJG .arrowheadPath{fill:#333333;}#mermaid-svg-8oKv2FTSFg6gfGJG .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-8oKv2FTSFg6gfGJG .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-8oKv2FTSFg6gfGJG .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-8oKv2FTSFg6gfGJG .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-8oKv2FTSFg6gfGJG .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-8oKv2FTSFg6gfGJG .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-8oKv2FTSFg6gfGJG .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-8oKv2FTSFg6gfGJG .cluster text{fill:#333;}#mermaid-svg-8oKv2FTSFg6gfGJG .cluster span{color:#333;}#mermaid-svg-8oKv2FTSFg6gfGJG div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-8oKv2FTSFg6gfGJG .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-8oKv2FTSFg6gfGJG rect.text{fill:none;stroke-width:0;}#mermaid-svg-8oKv2FTSFg6gfGJG .icon-shape,#mermaid-svg-8oKv2FTSFg6gfGJG .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-8oKv2FTSFg6gfGJG .icon-shape p,#mermaid-svg-8oKv2FTSFg6gfGJG .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-8oKv2FTSFg6gfGJG .icon-shape .label rect,#mermaid-svg-8oKv2FTSFg6gfGJG .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-8oKv2FTSFg6gfGJG .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-8oKv2FTSFg6gfGJG .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-8oKv2FTSFg6gfGJG :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 错误路径对比图
红色虚线
纯结果奖励
随机探索碰运气
高方差策略
多任务奖励
结构化探索
低方差策略

图注:错误路径对比图展示纯结果奖励与多任务奖励的策略差异。黄色节点为起点,红色虚线分支为退化路径(随机探索→高方差),绿色节点为多任务奖励入口,蓝色节点为正确路径(结构化探索),紫色节点为最终结果(低方差策略)。

很多人会误以为多任务奖励只是"把几个指标加起来"。实际上,权重系数的设计是一个精细的平衡艺术:如果 γ\gammaγ(问答权重)过高,模型可能倾向于在探索不充分时就猜测答案;如果 β\betaβ(前沿权重)过低,模型可能失去主动探索的动力。LMEE 通过消融实验发现,单一问题类型无法达到最佳效果------只有融合属性、计数、位置、关系和状态五类问题的奖励信号,才能训练出既会探索又会回答的通用策略。

认知检查点:多任务奖励函数通过将探索过程拆解为动作、前沿、问答、格式和一致性五个独立评估维度,避免了纯结果奖励导致的策略方差爆炸,实现了探索行为与认知能力的协同优化。


1.1.1.6 LMEE-Bench 数据构建:任务指令、探索轨迹与问答生成

现在我们已经了解了 MemoryExplorer 的训练机制,接下来看看它的"教材"是如何编写的。在继续之前,先问一个问题:如果数据集只是随机采样场景和目标,会发生什么?想象一个驾校的考题库------如果所有考题都在同一条直路上,学员永远学不会转弯。LMEE-Bench 的数据构建遵循"任务驱动、过程记录、问题引导"的三段式设计,确保每个样本都是一堂完整的"探索+记忆+应用"课程。

核心结论:LMEE-Bench 的数据构建包含任务指令生成、探索轨迹生成和基于记忆的问答生成三个串联阶段,通过 LLM 辅助生成语义丰富的任务描述,通过 Habitat-Sim 规划长程探索路径,通过 VLM 生成五类目标导向问题。

实现细节:任务指令由 LLM 结合场景区域和物体类别生成,例如"请依次找到客厅的茶几、厨房的烤箱和卧室的台灯"。探索轨迹由 Habitat-Sim 根据初始位置和目标位置规划多目标导航路径,每步记录动作、观测、位置和朝向。问答生成使用 VLM 基于目标物体的观测图像生成属性、计数、位置、关系和状态五类问题,答案形式包括开放式和选择题两种。
#mermaid-svg-GpLHW38nBrlubE9r{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-GpLHW38nBrlubE9r .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-GpLHW38nBrlubE9r .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-GpLHW38nBrlubE9r .error-icon{fill:#552222;}#mermaid-svg-GpLHW38nBrlubE9r .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-GpLHW38nBrlubE9r .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-GpLHW38nBrlubE9r .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-GpLHW38nBrlubE9r .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-GpLHW38nBrlubE9r .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-GpLHW38nBrlubE9r .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-GpLHW38nBrlubE9r .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-GpLHW38nBrlubE9r .marker{fill:#333333;stroke:#333333;}#mermaid-svg-GpLHW38nBrlubE9r .marker.cross{stroke:#333333;}#mermaid-svg-GpLHW38nBrlubE9r svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-GpLHW38nBrlubE9r p{margin:0;}#mermaid-svg-GpLHW38nBrlubE9r .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-GpLHW38nBrlubE9r .cluster-label text{fill:#333;}#mermaid-svg-GpLHW38nBrlubE9r .cluster-label span{color:#333;}#mermaid-svg-GpLHW38nBrlubE9r .cluster-label span p{background-color:transparent;}#mermaid-svg-GpLHW38nBrlubE9r .label text,#mermaid-svg-GpLHW38nBrlubE9r span{fill:#333;color:#333;}#mermaid-svg-GpLHW38nBrlubE9r .node rect,#mermaid-svg-GpLHW38nBrlubE9r .node circle,#mermaid-svg-GpLHW38nBrlubE9r .node ellipse,#mermaid-svg-GpLHW38nBrlubE9r .node polygon,#mermaid-svg-GpLHW38nBrlubE9r .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-GpLHW38nBrlubE9r .rough-node .label text,#mermaid-svg-GpLHW38nBrlubE9r .node .label text,#mermaid-svg-GpLHW38nBrlubE9r .image-shape .label,#mermaid-svg-GpLHW38nBrlubE9r .icon-shape .label{text-anchor:middle;}#mermaid-svg-GpLHW38nBrlubE9r .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-GpLHW38nBrlubE9r .rough-node .label,#mermaid-svg-GpLHW38nBrlubE9r .node .label,#mermaid-svg-GpLHW38nBrlubE9r .image-shape .label,#mermaid-svg-GpLHW38nBrlubE9r .icon-shape .label{text-align:center;}#mermaid-svg-GpLHW38nBrlubE9r .node.clickable{cursor:pointer;}#mermaid-svg-GpLHW38nBrlubE9r .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-GpLHW38nBrlubE9r .arrowheadPath{fill:#333333;}#mermaid-svg-GpLHW38nBrlubE9r .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-GpLHW38nBrlubE9r .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-GpLHW38nBrlubE9r .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-GpLHW38nBrlubE9r .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-GpLHW38nBrlubE9r .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-GpLHW38nBrlubE9r .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-GpLHW38nBrlubE9r .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-GpLHW38nBrlubE9r .cluster text{fill:#333;}#mermaid-svg-GpLHW38nBrlubE9r .cluster span{color:#333;}#mermaid-svg-GpLHW38nBrlubE9r div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-GpLHW38nBrlubE9r .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-GpLHW38nBrlubE9r rect.text{fill:none;stroke-width:0;}#mermaid-svg-GpLHW38nBrlubE9r .icon-shape,#mermaid-svg-GpLHW38nBrlubE9r .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-GpLHW38nBrlubE9r .icon-shape p,#mermaid-svg-GpLHW38nBrlubE9r .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-GpLHW38nBrlubE9r .icon-shape .label rect,#mermaid-svg-GpLHW38nBrlubE9r .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-GpLHW38nBrlubE9r .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-GpLHW38nBrlubE9r .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-GpLHW38nBrlubE9r :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 数据构建流程图
阶段三
阶段二
阶段一
目标图像
场景区域
物体类别
LLM 生成指令
初始位置
Habitat-Sim 规划
目标位置
探索轨迹
RAM 标注
记忆银行
VLM 生成问答
属性问题
计数问题
位置问题
关系问题
状态问题

图注:数据构建流程图分三个阶段展示。阶段一(指令生成):黄色输入节点经 LLM 运算(绿)生成任务指令。阶段二(轨迹生成):位置输入经 Habitat-Sim 规划(绿)生成轨迹(蓝),经 RAM 标注(绿)存入记忆银行(紫)。阶段三(问答生成):目标图像经 VLM 生成(绿)输出五类问题(紫)。

五类问题的设计逻辑:

  • 属性(Attribute):"茶几是什么颜色的?"------检验物体特征编码能力。
  • 计数(Counting):"客厅里有多少把椅子?"------检验空间聚合与数量推理能力。
  • 位置(Location):"烤箱在厨房的哪个位置?"------检验空间坐标编码能力。
  • 关系(Relationship):"沙发和茶几之间是什么关系?"------检验场景图推理能力。
  • 状态(State):"卧室的灯是开着的吗?"------检验动态状态观测能力。

很多人会误以为问答只是"考卷",对训练没有帮助。实际上,目标导向的问题在训练时充当了"注意力引导器"------当模型知道它需要回答"茶几的颜色"时,它在探索过程中会主动关注茶几的视觉特征,而非漫无目的地扫描整个房间。这类似于人类在"寻宝游戏"中比"自由散步"时更仔细地观察环境。
#mermaid-svg-4Z8M85bREqGc80v6{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-4Z8M85bREqGc80v6 .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-4Z8M85bREqGc80v6 .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-4Z8M85bREqGc80v6 .error-icon{fill:#552222;}#mermaid-svg-4Z8M85bREqGc80v6 .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-4Z8M85bREqGc80v6 .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-4Z8M85bREqGc80v6 .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-4Z8M85bREqGc80v6 .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-4Z8M85bREqGc80v6 .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-4Z8M85bREqGc80v6 .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-4Z8M85bREqGc80v6 .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-4Z8M85bREqGc80v6 .marker{fill:#333333;stroke:#333333;}#mermaid-svg-4Z8M85bREqGc80v6 .marker.cross{stroke:#333333;}#mermaid-svg-4Z8M85bREqGc80v6 svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-4Z8M85bREqGc80v6 p{margin:0;}#mermaid-svg-4Z8M85bREqGc80v6 .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-4Z8M85bREqGc80v6 .cluster-label text{fill:#333;}#mermaid-svg-4Z8M85bREqGc80v6 .cluster-label span{color:#333;}#mermaid-svg-4Z8M85bREqGc80v6 .cluster-label span p{background-color:transparent;}#mermaid-svg-4Z8M85bREqGc80v6 .label text,#mermaid-svg-4Z8M85bREqGc80v6 span{fill:#333;color:#333;}#mermaid-svg-4Z8M85bREqGc80v6 .node rect,#mermaid-svg-4Z8M85bREqGc80v6 .node circle,#mermaid-svg-4Z8M85bREqGc80v6 .node ellipse,#mermaid-svg-4Z8M85bREqGc80v6 .node polygon,#mermaid-svg-4Z8M85bREqGc80v6 .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-4Z8M85bREqGc80v6 .rough-node .label text,#mermaid-svg-4Z8M85bREqGc80v6 .node .label text,#mermaid-svg-4Z8M85bREqGc80v6 .image-shape .label,#mermaid-svg-4Z8M85bREqGc80v6 .icon-shape .label{text-anchor:middle;}#mermaid-svg-4Z8M85bREqGc80v6 .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-4Z8M85bREqGc80v6 .rough-node .label,#mermaid-svg-4Z8M85bREqGc80v6 .node .label,#mermaid-svg-4Z8M85bREqGc80v6 .image-shape .label,#mermaid-svg-4Z8M85bREqGc80v6 .icon-shape .label{text-align:center;}#mermaid-svg-4Z8M85bREqGc80v6 .node.clickable{cursor:pointer;}#mermaid-svg-4Z8M85bREqGc80v6 .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-4Z8M85bREqGc80v6 .arrowheadPath{fill:#333333;}#mermaid-svg-4Z8M85bREqGc80v6 .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-4Z8M85bREqGc80v6 .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-4Z8M85bREqGc80v6 .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-4Z8M85bREqGc80v6 .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-4Z8M85bREqGc80v6 .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-4Z8M85bREqGc80v6 .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-4Z8M85bREqGc80v6 .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-4Z8M85bREqGc80v6 .cluster text{fill:#333;}#mermaid-svg-4Z8M85bREqGc80v6 .cluster span{color:#333;}#mermaid-svg-4Z8M85bREqGc80v6 div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-4Z8M85bREqGc80v6 .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-4Z8M85bREqGc80v6 rect.text{fill:none;stroke-width:0;}#mermaid-svg-4Z8M85bREqGc80v6 .icon-shape,#mermaid-svg-4Z8M85bREqGc80v6 .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-4Z8M85bREqGc80v6 .icon-shape p,#mermaid-svg-4Z8M85bREqGc80v6 .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-4Z8M85bREqGc80v6 .icon-shape .label rect,#mermaid-svg-4Z8M85bREqGc80v6 .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-4Z8M85bREqGc80v6 .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-4Z8M85bREqGc80v6 .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-4Z8M85bREqGc80v6 :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 协同设计图
任务指令
探索策略
目标问题
注意力引导
记忆积累
问答生成
训练信号

图注:协同设计图展示任务指令、目标问题、探索策略和训练信号之间的闭环关系。黄色节点为输入,蓝色节点为策略核心,绿色节点为运算/引导,紫色节点为记忆结果,红色节点为反馈信号。实线表示数据流,虚线表示控制流/依赖。

认知检查点:LMEE-Bench 的数据构建不是简单的"场景+目标"随机采样,而是通过 LLM 生成语义指令、Habitat-Sim 规划长程轨迹、VLM 生成五类目标导向问题的三段式流水线,其中问答环节既是评估手段也是训练时的注意力引导器。


1.1.1.7 强化学习微调:GRPO 与策略优化的训练细节

现在我们已经了解了数据是如何构建的,接下来看看模型是如何在这些数据上"上课"的。在继续之前,先问一个关键问题:如果直接用监督学习(SFT)在专家轨迹上训练,会发生什么?想象一个学生背诵标准答案------他能完美复现已知场景的行为,但遇到新场景时手足无措。SFT 的局限在于:它只教"正确答案是什么",不教"为什么这个答案是对的、其他答案错在哪里"。在具身探索中,这意味着模型无法发展出自己的探索策略,只能机械地模仿专家路径。

MemoryExplorer 采用 GRPO(Group Relative Policy Optimization)进行强化学习微调。GRPO 的核心思想是:对于同一输入,采样一组输出(group),用组内相对奖励替代传统 PPO 中的价值网络(critic)。这相当于一个班级里没有"标准答案",学生的成绩取决于他比同班同学好多少------这种相对评价机制降低了对价值函数估计的依赖,特别适合输出空间离散且奖励稀疏的具身任务。

核心结论:GRPO 通过组内相对奖励替代独立的价值网络估计,在输出空间高维、奖励信号稀疏的具身探索任务中,实现了更稳定的策略优化和更低的计算开销。

实现细节 :训练配置如下------基础模型 Qwen2.5-VL-7B-Instruct,训练框架 EasyR1,8 张 NVIDIA H200 GPU,160 训练步,全局 batch size 128,学习率 1e-6,KL 散度惩罚系数 0.1,Top-K 采样 k=3k = 3k=3。一致性系数 c=0.5c = 0.5c=0.5。

GRPO 的目标函数可以形式化表示为:

JGRPO(θ)=Eq∼D,{ai}i=1G1G∑i=1G1∣ai∣∑t=1∣ai∣Lclip(θ,i,t)−βDKL(πθ∥πref) J_{GRPO}(\theta) = \mathbb{E}{q \sim \mathcal{D}, \{a_i\}{i=1}^{G}} \left \\frac{1}{G} \\sum_{i=1}\^{G} \\frac{1}{\|a_i\|} \\sum_{t=1}\^{\|a_i\|} L_{clip}(\\theta, i, t) - \\beta D_{KL}(\\pi_{\\theta} \\\| \\pi_{ref}) \\right JGRPO(θ)=Eq∼D,{ai}i=1G G1i=1∑G∣ai∣1t=1∑∣ai∣Lclip(θ,i,t)−βDKL(πθ∥πref)

其中概率比率 ri,t(θ)=πθ(oi,t∣⋅)πθold(oi,t∣⋅)r_{i,t}(\theta) = \frac{\pi_{\theta}(o_{i,t}|\cdot)}{\pi_{\theta_{old}}(o_{i,t}|\cdot)}ri,t(θ)=πθold(oi,t∣⋅)πθ(oi,t∣⋅),裁剪损失 Lclip=min⁡(ri,tA^i,t,clip(ri,t,1−ϵ,1+ϵ)A^i,t)L_{clip} = \min(r_{i,t} \hat{A}{i,t}, \text{clip}(r{i,t}, 1-\epsilon, 1+\epsilon) \hat{A}{i,t})Lclip=min(ri,tA^i,t,clip(ri,t,1−ϵ,1+ϵ)A^i,t),组内优势 A^i,t=ri−mean({rj})std({rj})\hat{A}{i,t} = \frac{r_i - \text{mean}(\{r_j\})}{\text{std}(\{r_j\})}A^i,t=std({rj})ri−mean({rj})。

这个公式如果翻译成图,画出来会是一个"赛马场":每一组 GGG 个输出就是一匹赛马,它们在同一个赛道(相同输入)上比赛。奖励 A^i,t\hat{A}{i,t}A^i,t 不是绝对成绩,而是相对于同组其他马匹的排名优势。KL 惩罚项 βDKL(πθ∥πref)\beta D{KL}(\pi_{\theta} \| \pi_{ref})βDKL(πθ∥πref) 是缰绳------防止赛马跑得太野偏离基础模型的先验知识。Clip 操作是护栏------防止单步更新幅度过大导致策略崩溃。
#mermaid-svg-xrJ7ic5YaDzrVfYQ{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-xrJ7ic5YaDzrVfYQ .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .error-icon{fill:#552222;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .marker{fill:#333333;stroke:#333333;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .marker.cross{stroke:#333333;}#mermaid-svg-xrJ7ic5YaDzrVfYQ svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-xrJ7ic5YaDzrVfYQ p{margin:0;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .cluster-label text{fill:#333;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .cluster-label span{color:#333;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .cluster-label span p{background-color:transparent;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .label text,#mermaid-svg-xrJ7ic5YaDzrVfYQ span{fill:#333;color:#333;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .node rect,#mermaid-svg-xrJ7ic5YaDzrVfYQ .node circle,#mermaid-svg-xrJ7ic5YaDzrVfYQ .node ellipse,#mermaid-svg-xrJ7ic5YaDzrVfYQ .node polygon,#mermaid-svg-xrJ7ic5YaDzrVfYQ .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .rough-node .label text,#mermaid-svg-xrJ7ic5YaDzrVfYQ .node .label text,#mermaid-svg-xrJ7ic5YaDzrVfYQ .image-shape .label,#mermaid-svg-xrJ7ic5YaDzrVfYQ .icon-shape .label{text-anchor:middle;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .rough-node .label,#mermaid-svg-xrJ7ic5YaDzrVfYQ .node .label,#mermaid-svg-xrJ7ic5YaDzrVfYQ .image-shape .label,#mermaid-svg-xrJ7ic5YaDzrVfYQ .icon-shape .label{text-align:center;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .node.clickable{cursor:pointer;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .arrowheadPath{fill:#333333;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-xrJ7ic5YaDzrVfYQ .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-xrJ7ic5YaDzrVfYQ .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-xrJ7ic5YaDzrVfYQ .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .cluster text{fill:#333;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .cluster span{color:#333;}#mermaid-svg-xrJ7ic5YaDzrVfYQ div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-xrJ7ic5YaDzrVfYQ rect.text{fill:none;stroke-width:0;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .icon-shape,#mermaid-svg-xrJ7ic5YaDzrVfYQ .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .icon-shape p,#mermaid-svg-xrJ7ic5YaDzrVfYQ .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .icon-shape .label rect,#mermaid-svg-xrJ7ic5YaDzrVfYQ .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-xrJ7ic5YaDzrVfYQ .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-xrJ7ic5YaDzrVfYQ .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-xrJ7ic5YaDzrVfYQ :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 完整细节图
输入三元组
旧策略采样
输出组 y1...yG
多任务奖励评估
组内均值中心化
优势函数 A_hat
比率裁剪
KL 惩罚约束
新策略更新
简化概念图
同一输入
采样 G 个输出
计算相对奖励
策略梯度更新

图注:左侧为简化概念图,展示 GRPO 的核心直觉:同一输入采样多输出,相对奖励驱动更新。右侧为完整细节图,展示训练流程:输入(黄)经旧策略采样(蓝)生成输出组,经多任务奖励评估(绿)、均值中心化(绿)、优势计算(紫)、比率裁剪(绿)和 KL 约束(红),最终更新策略(紫)。

训练过程中一个关键现象是"工具使用率的上升曲线":在训练初期,模型很少调用记忆检索工具(因为它不知道这有什么用);随着训练进行,模型逐渐发现检索记忆能显著提高问答准确率,工具使用率稳步上升,同时总奖励也随之增长。这验证了强化学习成功教会了模型"查资料是有用的"这一元认知。
#mermaid-svg-RkMb0B7hhbw84h2M{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-RkMb0B7hhbw84h2M .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-RkMb0B7hhbw84h2M .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-RkMb0B7hhbw84h2M .error-icon{fill:#552222;}#mermaid-svg-RkMb0B7hhbw84h2M .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-RkMb0B7hhbw84h2M .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-RkMb0B7hhbw84h2M .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-RkMb0B7hhbw84h2M .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-RkMb0B7hhbw84h2M .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-RkMb0B7hhbw84h2M .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-RkMb0B7hhbw84h2M .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-RkMb0B7hhbw84h2M .marker{fill:#333333;stroke:#333333;}#mermaid-svg-RkMb0B7hhbw84h2M .marker.cross{stroke:#333333;}#mermaid-svg-RkMb0B7hhbw84h2M svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-RkMb0B7hhbw84h2M p{margin:0;}#mermaid-svg-RkMb0B7hhbw84h2M .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-RkMb0B7hhbw84h2M .cluster-label text{fill:#333;}#mermaid-svg-RkMb0B7hhbw84h2M .cluster-label span{color:#333;}#mermaid-svg-RkMb0B7hhbw84h2M .cluster-label span p{background-color:transparent;}#mermaid-svg-RkMb0B7hhbw84h2M .label text,#mermaid-svg-RkMb0B7hhbw84h2M span{fill:#333;color:#333;}#mermaid-svg-RkMb0B7hhbw84h2M .node rect,#mermaid-svg-RkMb0B7hhbw84h2M .node circle,#mermaid-svg-RkMb0B7hhbw84h2M .node ellipse,#mermaid-svg-RkMb0B7hhbw84h2M .node polygon,#mermaid-svg-RkMb0B7hhbw84h2M .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-RkMb0B7hhbw84h2M .rough-node .label text,#mermaid-svg-RkMb0B7hhbw84h2M .node .label text,#mermaid-svg-RkMb0B7hhbw84h2M .image-shape .label,#mermaid-svg-RkMb0B7hhbw84h2M .icon-shape .label{text-anchor:middle;}#mermaid-svg-RkMb0B7hhbw84h2M .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-RkMb0B7hhbw84h2M .rough-node .label,#mermaid-svg-RkMb0B7hhbw84h2M .node .label,#mermaid-svg-RkMb0B7hhbw84h2M .image-shape .label,#mermaid-svg-RkMb0B7hhbw84h2M .icon-shape .label{text-align:center;}#mermaid-svg-RkMb0B7hhbw84h2M .node.clickable{cursor:pointer;}#mermaid-svg-RkMb0B7hhbw84h2M .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-RkMb0B7hhbw84h2M .arrowheadPath{fill:#333333;}#mermaid-svg-RkMb0B7hhbw84h2M .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-RkMb0B7hhbw84h2M .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-RkMb0B7hhbw84h2M .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-RkMb0B7hhbw84h2M .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-RkMb0B7hhbw84h2M .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-RkMb0B7hhbw84h2M .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-RkMb0B7hhbw84h2M .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-RkMb0B7hhbw84h2M .cluster text{fill:#333;}#mermaid-svg-RkMb0B7hhbw84h2M .cluster span{color:#333;}#mermaid-svg-RkMb0B7hhbw84h2M div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-RkMb0B7hhbw84h2M .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-RkMb0B7hhbw84h2M rect.text{fill:none;stroke-width:0;}#mermaid-svg-RkMb0B7hhbw84h2M .icon-shape,#mermaid-svg-RkMb0B7hhbw84h2M .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-RkMb0B7hhbw84h2M .icon-shape p,#mermaid-svg-RkMb0B7hhbw84h2M .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-RkMb0B7hhbw84h2M .icon-shape .label rect,#mermaid-svg-RkMb0B7hhbw84h2M .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-RkMb0B7hhbw84h2M .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-RkMb0B7hhbw84h2M .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-RkMb0B7hhbw84h2M :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 瓶颈热力图
实线
粗线
粗线
实线
粗线
数据加载
场景渲染
MLLM 前向传播
奖励计算
GRPO 梯度回传
策略更新
GPU 内存热点
计算瓶颈
通信密集

图注:瓶颈热力图展示训练流程中的性能瓶颈。黄色节点为数据输入,蓝色节点为计算步骤(线越粗表示瓶颈越严重),绿色节点为梯度运算,红色节点为资源热点标注。粗线表示瓶颈路径(MLLM 前向、奖励计算、策略更新),实线表示标准数据流。

很多人会误以为 GRPO 只是"不用价值网络的 PPO"。实际上,GRPO 的组内相对奖励机制在具身任务中有独特优势:传统 PPO 的 critic 网络需要估计每个状态的价值,但在部分可观察环境中(智能体只能看到局部场景),状态价值难以准确估计。GRPO 通过"同一起跑线比较"规避了这个问题------既然所有输出从同一输入出发,它们的相对优劣就反映了策略的真实改进方向,无需绝对价值估计。

认知检查点:GRPO 通过组内相对奖励替代独立价值网络,在部分可观察的具身探索任务中规避了状态价值估计难题;训练过程中模型自发学会提高记忆检索工具的使用率,验证了强化学习对元认知策略的成功诱导。


1.1.1.8 系统协同与接口:从模块到端到端的演化路径

现在我们已经了解了 MemoryExplorer 的各个组件,接下来看看它们如何协同工作,以及这个系统从原型到工业级的演化路径。在继续之前,先想象一个餐厅后厨:切菜、炒菜、摆盘三个岗位各自为政------这就是模块化方法的困境。MemoryExplorer 的端到端设计相当于让一位主厨同时掌控三个岗位,根据客人的实时反馈调整每道菜的做法。

核心结论:MemoryExplorer 从 3D-Mem 的模块化流水线演化为端到端强化学习系统,通过统一策略网络同时控制探索、检索和问答三个子任务,实现了模块间的梯度共享和协同优化。

实现细节:系统接口包括------(1) 环境接口:Habitat-Sim 模拟器提供 RGB-D 观测、深度图和语义标签;(2) 记忆接口:记忆银行支持基于文本查询的向量检索和基于空间范围的位置检索;(3) 工具接口:检索工具以函数调用形式暴露给 MLLM,返回 Top-K 记忆片段;(4) 评估接口:MLLM-Score 使用 Qwen3-VL-30B-A3B-Instruct 对开放式答案进行 1~5 分评分。
#mermaid-svg-2qN9O27mx22xw6Yu{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-2qN9O27mx22xw6Yu .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-2qN9O27mx22xw6Yu .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-2qN9O27mx22xw6Yu .error-icon{fill:#552222;}#mermaid-svg-2qN9O27mx22xw6Yu .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-2qN9O27mx22xw6Yu .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-2qN9O27mx22xw6Yu .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-2qN9O27mx22xw6Yu .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-2qN9O27mx22xw6Yu .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-2qN9O27mx22xw6Yu .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-2qN9O27mx22xw6Yu .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-2qN9O27mx22xw6Yu .marker{fill:#333333;stroke:#333333;}#mermaid-svg-2qN9O27mx22xw6Yu .marker.cross{stroke:#333333;}#mermaid-svg-2qN9O27mx22xw6Yu svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-2qN9O27mx22xw6Yu p{margin:0;}#mermaid-svg-2qN9O27mx22xw6Yu .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-2qN9O27mx22xw6Yu .cluster-label text{fill:#333;}#mermaid-svg-2qN9O27mx22xw6Yu .cluster-label span{color:#333;}#mermaid-svg-2qN9O27mx22xw6Yu .cluster-label span p{background-color:transparent;}#mermaid-svg-2qN9O27mx22xw6Yu .label text,#mermaid-svg-2qN9O27mx22xw6Yu span{fill:#333;color:#333;}#mermaid-svg-2qN9O27mx22xw6Yu .node rect,#mermaid-svg-2qN9O27mx22xw6Yu .node circle,#mermaid-svg-2qN9O27mx22xw6Yu .node ellipse,#mermaid-svg-2qN9O27mx22xw6Yu .node polygon,#mermaid-svg-2qN9O27mx22xw6Yu .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-2qN9O27mx22xw6Yu .rough-node .label text,#mermaid-svg-2qN9O27mx22xw6Yu .node .label text,#mermaid-svg-2qN9O27mx22xw6Yu .image-shape .label,#mermaid-svg-2qN9O27mx22xw6Yu .icon-shape .label{text-anchor:middle;}#mermaid-svg-2qN9O27mx22xw6Yu .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-2qN9O27mx22xw6Yu .rough-node .label,#mermaid-svg-2qN9O27mx22xw6Yu .node .label,#mermaid-svg-2qN9O27mx22xw6Yu .image-shape .label,#mermaid-svg-2qN9O27mx22xw6Yu .icon-shape .label{text-align:center;}#mermaid-svg-2qN9O27mx22xw6Yu .node.clickable{cursor:pointer;}#mermaid-svg-2qN9O27mx22xw6Yu .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-2qN9O27mx22xw6Yu .arrowheadPath{fill:#333333;}#mermaid-svg-2qN9O27mx22xw6Yu .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-2qN9O27mx22xw6Yu .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-2qN9O27mx22xw6Yu .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-2qN9O27mx22xw6Yu .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-2qN9O27mx22xw6Yu .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-2qN9O27mx22xw6Yu .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-2qN9O27mx22xw6Yu .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-2qN9O27mx22xw6Yu .cluster text{fill:#333;}#mermaid-svg-2qN9O27mx22xw6Yu .cluster span{color:#333;}#mermaid-svg-2qN9O27mx22xw6Yu div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-2qN9O27mx22xw6Yu .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-2qN9O27mx22xw6Yu rect.text{fill:none;stroke-width:0;}#mermaid-svg-2qN9O27mx22xw6Yu .icon-shape,#mermaid-svg-2qN9O27mx22xw6Yu .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-2qN9O27mx22xw6Yu .icon-shape p,#mermaid-svg-2qN9O27mx22xw6Yu .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-2qN9O27mx22xw6Yu .icon-shape .label rect,#mermaid-svg-2qN9O27mx22xw6Yu .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-2qN9O27mx22xw6Yu .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-2qN9O27mx22xw6Yu .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-2qN9O27mx22xw6Yu :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 三层架构总览图
材料层
系统层
应用层
Habitat-Sim
医学导航
多目标导航
室内机器人
虚拟助手
问答推理
记忆检索
记忆银行
MLLM 骨干
策略优化
奖励引擎

图注:三层架构总览图展示系统层次。应用层(黄)为下游场景,系统层(蓝)为核心功能模块,材料层(绿)为基础设施。实线表示数据流/调用关系。
#mermaid-svg-Wen0QUqVXFG22kHt{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-Wen0QUqVXFG22kHt .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-Wen0QUqVXFG22kHt .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-Wen0QUqVXFG22kHt .error-icon{fill:#552222;}#mermaid-svg-Wen0QUqVXFG22kHt .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-Wen0QUqVXFG22kHt .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-Wen0QUqVXFG22kHt .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-Wen0QUqVXFG22kHt .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-Wen0QUqVXFG22kHt .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-Wen0QUqVXFG22kHt .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-Wen0QUqVXFG22kHt .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-Wen0QUqVXFG22kHt .marker{fill:#333333;stroke:#333333;}#mermaid-svg-Wen0QUqVXFG22kHt .marker.cross{stroke:#333333;}#mermaid-svg-Wen0QUqVXFG22kHt svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-Wen0QUqVXFG22kHt p{margin:0;}#mermaid-svg-Wen0QUqVXFG22kHt .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-Wen0QUqVXFG22kHt .cluster-label text{fill:#333;}#mermaid-svg-Wen0QUqVXFG22kHt .cluster-label span{color:#333;}#mermaid-svg-Wen0QUqVXFG22kHt .cluster-label span p{background-color:transparent;}#mermaid-svg-Wen0QUqVXFG22kHt .label text,#mermaid-svg-Wen0QUqVXFG22kHt span{fill:#333;color:#333;}#mermaid-svg-Wen0QUqVXFG22kHt .node rect,#mermaid-svg-Wen0QUqVXFG22kHt .node circle,#mermaid-svg-Wen0QUqVXFG22kHt .node ellipse,#mermaid-svg-Wen0QUqVXFG22kHt .node polygon,#mermaid-svg-Wen0QUqVXFG22kHt .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-Wen0QUqVXFG22kHt .rough-node .label text,#mermaid-svg-Wen0QUqVXFG22kHt .node .label text,#mermaid-svg-Wen0QUqVXFG22kHt .image-shape .label,#mermaid-svg-Wen0QUqVXFG22kHt .icon-shape .label{text-anchor:middle;}#mermaid-svg-Wen0QUqVXFG22kHt .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-Wen0QUqVXFG22kHt .rough-node .label,#mermaid-svg-Wen0QUqVXFG22kHt .node .label,#mermaid-svg-Wen0QUqVXFG22kHt .image-shape .label,#mermaid-svg-Wen0QUqVXFG22kHt .icon-shape .label{text-align:center;}#mermaid-svg-Wen0QUqVXFG22kHt .node.clickable{cursor:pointer;}#mermaid-svg-Wen0QUqVXFG22kHt .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-Wen0QUqVXFG22kHt .arrowheadPath{fill:#333333;}#mermaid-svg-Wen0QUqVXFG22kHt .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-Wen0QUqVXFG22kHt .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-Wen0QUqVXFG22kHt .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-Wen0QUqVXFG22kHt .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-Wen0QUqVXFG22kHt .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-Wen0QUqVXFG22kHt .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-Wen0QUqVXFG22kHt .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-Wen0QUqVXFG22kHt .cluster text{fill:#333;}#mermaid-svg-Wen0QUqVXFG22kHt .cluster span{color:#333;}#mermaid-svg-Wen0QUqVXFG22kHt div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-Wen0QUqVXFG22kHt .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-Wen0QUqVXFG22kHt rect.text{fill:none;stroke-width:0;}#mermaid-svg-Wen0QUqVXFG22kHt .icon-shape,#mermaid-svg-Wen0QUqVXFG22kHt .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-Wen0QUqVXFG22kHt .icon-shape p,#mermaid-svg-Wen0QUqVXFG22kHt .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-Wen0QUqVXFG22kHt .icon-shape .label rect,#mermaid-svg-Wen0QUqVXFG22kHt .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-Wen0QUqVXFG22kHt .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-Wen0QUqVXFG22kHt .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-Wen0QUqVXFG22kHt :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 接口对接图
实线
实线
实线
实线
MemoryExplorer
环境接口
记忆接口
工具接口
评估接口
Habitat-Sim
向量数据库
检索函数
MLLM 评分器

图注:接口对接图展示 MemoryExplorer 与外部系统的四个核心接口。黄色节点为核心系统,蓝色节点为接口层,绿色节点为外部实现。

演化路径从最简单到最复杂的工业级方案:
#mermaid-svg-HpVjbeocAKlfRvy8{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-HpVjbeocAKlfRvy8 .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-HpVjbeocAKlfRvy8 .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-HpVjbeocAKlfRvy8 .error-icon{fill:#552222;}#mermaid-svg-HpVjbeocAKlfRvy8 .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-HpVjbeocAKlfRvy8 .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-HpVjbeocAKlfRvy8 .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-HpVjbeocAKlfRvy8 .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-HpVjbeocAKlfRvy8 .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-HpVjbeocAKlfRvy8 .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-HpVjbeocAKlfRvy8 .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-HpVjbeocAKlfRvy8 .marker{fill:#333333;stroke:#333333;}#mermaid-svg-HpVjbeocAKlfRvy8 .marker.cross{stroke:#333333;}#mermaid-svg-HpVjbeocAKlfRvy8 svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-HpVjbeocAKlfRvy8 p{margin:0;}#mermaid-svg-HpVjbeocAKlfRvy8 .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-HpVjbeocAKlfRvy8 .cluster-label text{fill:#333;}#mermaid-svg-HpVjbeocAKlfRvy8 .cluster-label span{color:#333;}#mermaid-svg-HpVjbeocAKlfRvy8 .cluster-label span p{background-color:transparent;}#mermaid-svg-HpVjbeocAKlfRvy8 .label text,#mermaid-svg-HpVjbeocAKlfRvy8 span{fill:#333;color:#333;}#mermaid-svg-HpVjbeocAKlfRvy8 .node rect,#mermaid-svg-HpVjbeocAKlfRvy8 .node circle,#mermaid-svg-HpVjbeocAKlfRvy8 .node ellipse,#mermaid-svg-HpVjbeocAKlfRvy8 .node polygon,#mermaid-svg-HpVjbeocAKlfRvy8 .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-HpVjbeocAKlfRvy8 .rough-node .label text,#mermaid-svg-HpVjbeocAKlfRvy8 .node .label text,#mermaid-svg-HpVjbeocAKlfRvy8 .image-shape .label,#mermaid-svg-HpVjbeocAKlfRvy8 .icon-shape .label{text-anchor:middle;}#mermaid-svg-HpVjbeocAKlfRvy8 .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-HpVjbeocAKlfRvy8 .rough-node .label,#mermaid-svg-HpVjbeocAKlfRvy8 .node .label,#mermaid-svg-HpVjbeocAKlfRvy8 .image-shape .label,#mermaid-svg-HpVjbeocAKlfRvy8 .icon-shape .label{text-align:center;}#mermaid-svg-HpVjbeocAKlfRvy8 .node.clickable{cursor:pointer;}#mermaid-svg-HpVjbeocAKlfRvy8 .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-HpVjbeocAKlfRvy8 .arrowheadPath{fill:#333333;}#mermaid-svg-HpVjbeocAKlfRvy8 .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-HpVjbeocAKlfRvy8 .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-HpVjbeocAKlfRvy8 .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-HpVjbeocAKlfRvy8 .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-HpVjbeocAKlfRvy8 .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-HpVjbeocAKlfRvy8 .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-HpVjbeocAKlfRvy8 .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-HpVjbeocAKlfRvy8 .cluster text{fill:#333;}#mermaid-svg-HpVjbeocAKlfRvy8 .cluster span{color:#333;}#mermaid-svg-HpVjbeocAKlfRvy8 div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-HpVjbeocAKlfRvy8 .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-HpVjbeocAKlfRvy8 rect.text{fill:none;stroke-width:0;}#mermaid-svg-HpVjbeocAKlfRvy8 .icon-shape,#mermaid-svg-HpVjbeocAKlfRvy8 .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-HpVjbeocAKlfRvy8 .icon-shape p,#mermaid-svg-HpVjbeocAKlfRvy8 .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-HpVjbeocAKlfRvy8 .icon-shape .label rect,#mermaid-svg-HpVjbeocAKlfRvy8 .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-HpVjbeocAKlfRvy8 .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-HpVjbeocAKlfRvy8 .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-HpVjbeocAKlfRvy8 :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 演化路径图
问题: 无法自主探索
问题: 检索策略固定
问题: 查询质量无优化
问题: 单轮检索局限
模仿学习 SFT
3D-Mem 模块化
RA-Mem 半主动
MemoryExplorer 端到端
多轮交互扩展
工业级部署

图注:演化路径图展示从模仿学习到工业级部署的五级演进。黄色节点为原始方案,蓝色节点为中间迭代,绿色节点为强化优化阶段,紫色节点为最终方案。每步标注了前一级"解决了什么问题"。
#mermaid-svg-vqGoq7R8daQmEHkK{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-vqGoq7R8daQmEHkK .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-vqGoq7R8daQmEHkK .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-vqGoq7R8daQmEHkK .error-icon{fill:#552222;}#mermaid-svg-vqGoq7R8daQmEHkK .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-vqGoq7R8daQmEHkK .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-vqGoq7R8daQmEHkK .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-vqGoq7R8daQmEHkK .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-vqGoq7R8daQmEHkK .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-vqGoq7R8daQmEHkK .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-vqGoq7R8daQmEHkK .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-vqGoq7R8daQmEHkK .marker{fill:#333333;stroke:#333333;}#mermaid-svg-vqGoq7R8daQmEHkK .marker.cross{stroke:#333333;}#mermaid-svg-vqGoq7R8daQmEHkK svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-vqGoq7R8daQmEHkK p{margin:0;}#mermaid-svg-vqGoq7R8daQmEHkK .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-vqGoq7R8daQmEHkK .cluster-label text{fill:#333;}#mermaid-svg-vqGoq7R8daQmEHkK .cluster-label span{color:#333;}#mermaid-svg-vqGoq7R8daQmEHkK .cluster-label span p{background-color:transparent;}#mermaid-svg-vqGoq7R8daQmEHkK .label text,#mermaid-svg-vqGoq7R8daQmEHkK span{fill:#333;color:#333;}#mermaid-svg-vqGoq7R8daQmEHkK .node rect,#mermaid-svg-vqGoq7R8daQmEHkK .node circle,#mermaid-svg-vqGoq7R8daQmEHkK .node ellipse,#mermaid-svg-vqGoq7R8daQmEHkK .node polygon,#mermaid-svg-vqGoq7R8daQmEHkK .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-vqGoq7R8daQmEHkK .rough-node .label text,#mermaid-svg-vqGoq7R8daQmEHkK .node .label text,#mermaid-svg-vqGoq7R8daQmEHkK .image-shape .label,#mermaid-svg-vqGoq7R8daQmEHkK .icon-shape .label{text-anchor:middle;}#mermaid-svg-vqGoq7R8daQmEHkK .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-vqGoq7R8daQmEHkK .rough-node .label,#mermaid-svg-vqGoq7R8daQmEHkK .node .label,#mermaid-svg-vqGoq7R8daQmEHkK .image-shape .label,#mermaid-svg-vqGoq7R8daQmEHkK .icon-shape .label{text-align:center;}#mermaid-svg-vqGoq7R8daQmEHkK .node.clickable{cursor:pointer;}#mermaid-svg-vqGoq7R8daQmEHkK .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-vqGoq7R8daQmEHkK .arrowheadPath{fill:#333333;}#mermaid-svg-vqGoq7R8daQmEHkK .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-vqGoq7R8daQmEHkK .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-vqGoq7R8daQmEHkK .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-vqGoq7R8daQmEHkK .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-vqGoq7R8daQmEHkK .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-vqGoq7R8daQmEHkK .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-vqGoq7R8daQmEHkK .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-vqGoq7R8daQmEHkK .cluster text{fill:#333;}#mermaid-svg-vqGoq7R8daQmEHkK .cluster span{color:#333;}#mermaid-svg-vqGoq7R8daQmEHkK div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-vqGoq7R8daQmEHkK .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-vqGoq7R8daQmEHkK rect.text{fill:none;stroke-width:0;}#mermaid-svg-vqGoq7R8daQmEHkK .icon-shape,#mermaid-svg-vqGoq7R8daQmEHkK .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-vqGoq7R8daQmEHkK .icon-shape p,#mermaid-svg-vqGoq7R8daQmEHkK .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-vqGoq7R8daQmEHkK .icon-shape .label rect,#mermaid-svg-vqGoq7R8daQmEHkK .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-vqGoq7R8daQmEHkK .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-vqGoq7R8daQmEHkK .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-vqGoq7R8daQmEHkK :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 知识图谱
具身智能
导航
问答
记忆
多目标导航
视觉问答
情景记忆
LMEE-Bench
记忆银行
MemoryExplorer
GRPO 训练
主动检索
终身学习

图注:知识图谱展示 LMEE 技术体系在具身智能领域的位置。黄色节点为顶层领域,蓝色节点为技术分支,绿色节点为运算/机制,紫色节点为数据集/基础设施,红色粗线节点为本文核心方法(MemoryExplorer)。

闭环设计:这在实际使用中意味着什么?LMEE 和 MemoryExplorer 将具身智能从"一次性任务执行器"升级为"终身学习探索者"。在医学导航场景中,这意味着手术机器人可以在多次进入同一手术室后记住设备布局,减少术前准备时间;在室内服务机器人场景中,这意味着扫地机器人可以记住家具位置变化,优化清扫路径;在虚拟助手场景中,这意味着 AI 代理可以在多轮对话中积累用户偏好,提供更个性化的服务。从系统架构角度看,MemoryExplorer 的端到端设计使得探索、检索和问答三个子任务共享同一个策略网络,梯度信号可以在模块间自由流动------当问答错误时,梯度不仅更新问答头,还会回溯影响探索策略("下次应该多看一眼")和检索策略("下次应该查更相关的记忆")。这种跨模块的信用分配是传统模块化系统无法实现的,也是强化学习在具身智能中的核心价值所在。

相关推荐
有为少年11 小时前
深度隐式层 | 深度平衡模型 (Deep Equilibrium, DEQ)
人工智能·深度学习·神经网络·机器学习
完成大叔11 小时前
学习导师:从工具模式到感知模式的整合
人工智能
梦想三三11 小时前
【Open CV图像处理】修改运算与平滑处理
人工智能·opencv·计算机视觉
努力攻坚操作系统11 小时前
ClickHouse详细教程
大数据·数据库·clickhouse
lqqjuly11 小时前
状态空间模型:从经典控制论到现代序列建模——S4、Mamba 及其理论体系的完整论述(三)
人工智能
财经资讯数据_灵砚智能11 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年5月28日
大数据·人工智能·python·信息可视化·自然语言处理·ai编程·灵砚智能
weixin_4684668511 小时前
基于OpenCV的工业相机标定技术实战
图像处理·人工智能·opencv·计算机视觉·相机标定·机器视觉·工业相机
徐安安ye11 小时前
FlashAttention输出全是NaN?数值问题排查指南
人工智能·深度学习·机器学习