【WAM篇】05：TesserAct——当视频世界模型学会“立体地“想象未来

级联式 WAM 系列的第五站。前面几篇里，世界模型"画出来"的未来都是一段平面的 RGB 视频。这一篇我们要看的 TesserAct 提出了一个朴素却关键的追问：机器人活在三维世界里，凭什么让它"想象"出来的未来只是二维的画面？

在 WAM（World Action Model，世界动作模型，即"先在脑海里预演未来、再据此行动"的一类具身模型）的大家谱里，TesserAct 属于级联式 这一支：先由世界模型生成一段"任务执行视频"作为中间计划，再用一个独立的动作模型从这段视频里把可执行的机器人指令"读"出来。它和开山之作 UniPi、以及光流路线的 AVDC 站在同一条赛道上。但 TesserAct 做了一件别人没做的事：它不满足于生成 RGB 视频，而是让世界模型同时吐出深度图 和表面法向图，把对未来的想象从"一张照片"升级成"一段会动的三维场景"。

论文的名字本身就是个隐喻。Tesseract（超立方体）是三维立方体在四维空间里的推广；作者用它来呼应自己要建模的对象------4D 具身世界模型，也就是"3D 空间 + 时间"的动态演化。所谓 4D 世界模型，它要预测的不是一张张孤立的图片，而是"在一个具身智能体的动作驱动下，整个三维场景随时间会怎样演变"------并且要求这种演变在空间上和时间上都保持一致：墙不会突然塌、被抓的物体不会忽大忽小、相邻时刻之间不会鬼畜地跳变。

一、要解决什么问题：平面想象的"三维盲区"

先回顾一下级联式 WAM 的标准玩法。以 UniPi 为代表的"像素空间规划"流派，思路是这样的：

给定当前画面和一句语言指令（比如"把抽屉拉开"），让一个视频生成模型"脑补"出一段完成任务的视频；
再用一个逆动力学模型（IDM，Inverse Dynamics Model，通俗说就是"盯着前后两帧画面、倒推出中间机器人该执行什么动作"的网络），从相邻帧里回归出一串动作，交给机器人去执行。

这套路子的最大红利，是能直接"白嫖"互联网规模预训练的视频大模型------它们见过海量真实世界的运动，对"东西会怎么动"有很强的先验。但问题也很扎眼：这些视频通通是二维的。

二维想象的盲区在哪？打个比方。你闭上一只眼睛去倒水，会发现很难判断杯口到底离瓶口多远------这就是缺乏深度信息的窘境。机器人操作里这种"差之毫厘"的场景比比皆是：

深度模糊：画面里夹爪和苹果"看起来"贴在一起了，可在三维空间里它们可能还差着两厘米。靠 RGB 帧硬推动作，IDM 很容易在这种贴近接触的瞬间出错。
几何走形：纯 RGB 视频生成模型并不"懂"物体是刚性的、桌面是平的。它生成的画面里，物体可能莫名其妙地变形、悬浮，或者在不同帧之间"漂移"------视觉上挑不出大毛病，可一旦你试图把它还原成真实的三维场景，破绽百出。

TesserAct 的出发点就是：与其让动作模型去猜被压扁的三维信息，不如让世界模型一开始就把三维信息显式地预测出来。 深度和法向，正是补上这个盲区最直接的两味"几何调料"。

这里还藏着一个更深的动机。WAM 综述反复强调的一个核心标准是"耦合式动作生成"------动作必须严格对齐于所想象的未来状态，而不能凭空生成。可如果想象出的未来本身就缺了一整个维度（深度），那么再怎么对齐，动作也会"先天发育不良"。换句话说，世界模型对未来刻画得越完整、越符合物理几何，下游动作模型才越有可能做出靠谱的决策。TesserAct 正是从这个角度，把"提升动作质量"的问题，前移成了"提升世界想象的几何完整度"的问题。

二、核心思想与直觉：RGB-DN 三件套 + 一次几何"提纯"

一句话概括 TesserAct 的核心 idea：让视频生成模型从预测 RGB 一种模态，升级到联合预测 RGB、深度（Depth）、表面法向（Normal）三种模态（合称 RGB-DN）；再用一套带几何约束的优化算法，把这三种模态"焊接"成一段时空一致的 4D 点云场景；最后从这段三维场景里学习一个更准的逆动力学模型。

这里有两个新手友好的概念先点一句：

深度图：每个像素到相机的距离，本质上告诉你"这个点在三维空间里有多远"。有了它，平面像素就能反投影回三维点。
表面法向：每个像素所在物体表面"朝向哪个方向"的单位向量（想象在桌面上立一根垂直的针，针的方向就是桌面的法向）。它刻画的是局部的几何朝向，对"平面是不是平的、曲面弯得对不对"特别敏感。

为什么要同时要这两样、而不只要深度？因为单靠神经网络预测出来的深度图往往"坑坑洼洼"、噪声很大，直接反投影出来的点云碎裂不堪。而法向恰恰是深度的"导数"层面的信息 ------它约束的是相邻像素深度变化的快慢方向。用法向去回过头来"打磨"深度，就能得到平滑、干净、几何自洽的三维表面。这正是 TesserAct 在"生成"之后追加一步几何优化的精髓：生成给出粗胚，几何约束做精修。

它属于 WAM 级联式中的"像素空间 + 学习式动作提取"一类，与前作最关键的区别就在于中间表征从 RGB 升级为 RGB-DN，把显式的几何约束注入了规划载体，从而给下游动作提取喂进了远比二维像素丰富的线索。

三、方法详解：从一帧画面到一段 4D 场景

TesserAct 的流水线可以拆成三块：RGB-DN 视频生成 → 几何优化重建 4D 场景 → 点云逆动力学提取动作。我们逐块拆开讲。

3.1 RGB-DN 视频生成：给视频大模型"加装两条输出管线"

底座用的是 CogVideoX------一个基于 DiT（Diffusion Transformer，扩散式 Transformer，简单说就是用 Transformer 当主干、靠"逐步去噪"来生成内容的视频生成模型）的视频扩散模型。直接从头训一个能同时吐三种模态的模型，数据量（约 20 多万段视频）远远不够。作者的做法很聪明，是一种典型的"站在巨人肩膀上"的微调策略：

复用预训练权重，保留 CogVideoX 对真实世界运动的全部先验；
加装三个独立的输入投影器，分别把 RGB、深度、法向三种模态编码成嵌入，拼接后一起送进 DiT；
输出端：RGB 仍走原来的输出头；深度和法向各自新增 Conv3D 层，并把"已预测出的 RGB"与输入潜变量融合后再生成------相当于让几何预测"参考着画面内容"来出图。

最关键的一个工程细节是：所有新增模块都用零初始化。这保证了训练刚开始的一瞬间，模型的 RGB 输出和原版 CogVideoX 完全一致------既不破坏宝贵的预训练知识，又能让深度、法向这两条新管线从零平滑地学起来。模型最终生成 49 帧的 RGB-DN 视频。

3.2 几何优化：用法向"反推"出干净的深度

拿到生成的 RGB、深度、法向之后，光把深度反投影成点云是不够的（前面说过，会很碎、还会随时间抖动）。TesserAct 设计了一套优化目标，迭代地"提纯"每一帧的深度图，核心是三个损失项的合力：

损失项	它在管什么	直觉
法向积分损失	让深度的空间梯度与预测法向相符	法向规定了"表面该怎么倾斜"，据此把深度面"抚平"成几何自洽的曲面
时间一致性损失	用光流（RAFT）区分静态背景与运动物体，分别约束帧间一致	不该动的（桌子、墙）就别在帧间乱漂，该动的（被抓物体）单独处理，杜绝时序抖动
正则项	让优化后的深度别偏离原始预测太远	提纯归提纯，不能把网络辛苦预测的内容改得面目全非

其中法向积分损失是灵魂。它的形式可以朴素地理解为：在对数深度域里，让"深度沿 u 方向的变化率 + 该方向法向分量"和"深度沿 v 方向的变化率 + 该方向法向分量"都尽量接近零------说人话就是，用法向当"参照系"，逼着深度的起伏方式符合真实的表面朝向。三项损失加权后迭代求解，最后用相机内参把精修过的深度反投影成点云，一段帧帧对齐、时空连贯的 4D 场景就成型了。

这一步带来的副产品很惊艳：因为重建出了完整的动态三维场景，TesserAct 顺手就能做新视角合成------从训练时没见过的相机角度"看"这段未来。

3.3 逆动力学：在三维点云上回归动作

有了高质量的 4D 场景，动作提取就水到渠成。TesserAct 的 IDM 不再啃二维像素，而是直接吃三维点云：

用 PointNet 编码过滤后的点云（采样 8192 个点，去掉背景和地面这些干扰）；
把点云特征和 CLIP 文本嵌入（指令的语义编码）拼在一起；
送进一个四层 MLP，输出 7 自由度的机器人动作。
训练时还加了 20% 的高斯噪声做数据增强，提升鲁棒性。

形式上，它学的就是 ai=ID(si,si+1,T)a_i = \text{ID}(s_i, s_{i+1}, \mathcal{T})ai=ID(si,si+1,T)------给定前后两个三维场景状态和任务，倒推出动作。相比在二维像素上猜动作，在三维点云上回归动作的"不适定性"大大降低了，因为深度模糊这个最大的祸根已经被几何信息消除了。

核心公式与逻辑梳理

把 TesserAct 的整套方法压成一条逻辑链：单帧 RGB + 任务描述 → 视频扩散模型联合生成 RGB-DN 三模态视频 → 用法向积分 + 时间一致性 + 正则化优化深度 → 反投影成时空一致的 4D 点云 → 点云逆动力学回归动作。下面挑出全文最关键的几个公式，逐一拆开。

(1) 联合扩散训练目标。 这是把单一 RGB 输出扩展为 RGB-DN 三模态预测的核心训练损失：

L=Ev0,T,t,ϵ $∥ \[ϵv,ϵd,ϵn$ −ϵθ(xt,t,x0,T)∥2 ]\mathcal{L} = \mathbb{E}_{\mathbf{v}0,\mathcal{T},t,\epsilon}\big $\\,\\big\\\|\\,\[\\epsilon_{\\mathbf{v}},\\epsilon_{\\mathbf{d}},\\epsilon_{\\mathbf{n}}$ - \epsilon\theta(\mathbf{x}_t,t,\mathbf{x}^0,\mathcal{T})\big\|^2\,\big]L=Ev0,T,t,ϵ $\[ϵv,ϵd,ϵn$ −ϵθ(xt,t,x0,T) 2]

符号说明 ：v0\mathbf{v}0v0 是真实的 RGB-DN 三模态视频；T\mathcal{T}T 是文本指令；ttt 是扩散去噪步；ϵ\epsilonϵ 是采样得到的高斯噪声；ϵv,ϵd,ϵn\epsilon{\mathbf{v}},\epsilon_{\mathbf{d}},\epsilon_{\mathbf{n}}ϵv,ϵd,ϵn 分别是 RGB、深度、法向三个通道上对应的噪声分量；ϵθ\epsilon_\thetaϵθ 是 DiT 主干预测的噪声；x0\mathbf{x}^0x0 是首帧潜变量（条件）；E\mathbb{E}E 是在这些随机变量上求期望。这条式子在做什么：让一个扩散模型同时学会"还原三种被噪声污染的模态"。直觉上就是要求模型在每一步去噪时，不仅把画面（RGB）猜对，还得把每个像素的距离（深度）和表面朝向（法向）一并猜对------把"画一张照片"升级成"画一张带几何说明的照片"。

(2) 法向积分损失：用法向"逼"深度变得自洽。 这是几何精修阶段的灵魂目标：

min⁡d ∬Ω(n~z ∂ud~+nx)2+(n~z ∂vd~+ny)2 du dv\min_{d}\;\iint_{\Omega}\big(\tilde{n}_z\,\partial_u\tilde{d}+n_x\big)^2 + \big(\tilde{n}_z\,\partial_v\tilde{d}+n_y\big)^2\,du\,dvdmin∬Ω(n~z∂ud~+nx)2+(n~z∂vd~+ny)2dudv

符号说明 ：d~=log⁡(d)\tilde{d}=\log(d)d~=log(d) 是对数深度（取对数让远近物体的相对变化更平衡）；∂ud~\partial_u\tilde{d}∂ud~、∂vd~\partial_v\tilde{d}∂vd~ 是深度沿图像横纵向的空间梯度，可以直观理解为"在画面里走一小步、深度变了多少"；nx,ny,nzn_x,n_y,n_znx,ny,nz 是预测出的表面法向的三个分量；Ω\OmegaΩ 是整幅图像的像素域；积分实际是对所有像素求和。这条式子在做什么 ：用代数关系把"深度的起伏方式"约束到"法向所规定的表面朝向"上。打个比方：如果法向告诉你这片表面是水平桌面，那这片区域深度沿 uuu、vvv 两个方向的变化率就该接近零；如果法向告诉你这是一面斜墙，深度沿斜面方向就该按对应斜率变化。最小化这两项的平方和，等价于把粗糙、坑洼的深度图"按法向给定的几何样板"抚平。

(3) 时间一致性损失：动者归动者，静者归静者。 为了让生成的 4D 场景帧间不抖动，作者用光流分别约束动态与静态区域：

Lc=λcd ∥D~i ⁣∘ ⁣Mdi−Di→(i−1) ⁣∘ ⁣Mdi∥2+λcb ∥D~i ⁣∘ ⁣Mbi−Di→(i−1) ⁣∘ ⁣Mbi∥2\mathcal{L}c = \lambda{cd}\,\big\|\tilde{\mathcal{D}}^i\!\circ\!\mathcal{M}^i_d - \mathcal{D}^{i\to(i-1)}\!\circ\!\mathcal{M}^i_d\big\|^2 + \lambda_{cb}\,\big\|\tilde{\mathcal{D}}^i\!\circ\!\mathcal{M}^i_b - \mathcal{D}^{i\to(i-1)}\!\circ\!\mathcal{M}^i_b\big\|^2Lc=λcd D~i∘Mdi−Di→(i−1)∘Mdi 2+λcb D~i∘Mbi−Di→(i−1)∘Mbi 2

符号说明 ：D~i\tilde{\mathcal{D}}^iD~i 是第 iii 帧正在被优化的深度图；Di→(i−1)\mathcal{D}^{i\to(i-1)}Di→(i−1) 是把第 i−1i-1i−1 帧深度沿光流"warp"到第 iii 帧坐标系下的结果；Mdi\mathcal{M}^i_dMdi、Mbi\mathcal{M}^i_bMbi 分别是动态物体与静态背景的二值掩码（用 RAFT 光流大小区分）；∘\circ∘ 是逐像素点乘；λ\lambdaλ 是权重。这条式子在做什么：背景区域（桌子、墙）的深度不该在帧间漂移，所以让它和上一帧 warp 过来的深度对齐；运动物体则单独算一项，避免硬把运动区域也按背景对齐导致鬼影。这一步是"4D 场景时序连贯"的工程保险。

(4) 几何优化总目标。 三项损失合在一起对深度做迭代精修：

arg⁡min⁡D~ Ls(D~,Ni) + Lc(D~,D^i−1,Fi,Fi−1) + Lr(D~,Di)\arg\min_{\tilde{\mathcal{D}}}\;\mathcal{L}_s(\tilde{\mathcal{D}},\mathcal{N}^i)\;+\;\mathcal{L}_c(\tilde{\mathcal{D}},\hat{\mathcal{D}}^{i-1},\mathcal{F}^i,\mathcal{F}^{i-1})\;+\;\mathcal{L}_r(\tilde{\mathcal{D}},\mathcal{D}^i)argD~minLs(D~,Ni)+Lc(D~,D^i−1,Fi,Fi−1)+Lr(D~,Di)

符号说明 ：Ls\mathcal{L}_sLs 是法向积分项（空间几何自洽）；Lc\mathcal{L}_cLc 是上面的时间一致性项；Lr\mathcal{L}_rLr 是正则项（让优化后的深度别偏离网络原始预测 Di\mathcal{D}^iDi 太远）；Ni\mathcal{N}^iNi 是预测法向；F\mathcal{F}F 是光流。这条式子在做什么：用一个统一的优化问题，把"空间几何要自洽""时间上要连贯""不能脱离原始预测"三种诉求合成一个目标。求解给出的就是干净、平滑、对齐的深度图，反投影出来就是 TesserAct 标志性的 4D 点云场景。

(5) 点云逆动力学。 最后从两帧 4D 状态里抠动作：

ai=ID(si,si+1,T)a_i = \mathrm{ID}(s_i, s_{i+1}, \mathcal{T})ai=ID(si,si+1,T)

符号说明 ：sis_isi、si+1s_{i+1}si+1 是前后两帧的三维点云（经过 PointNet 编码）；T\mathcal{T}T 是任务的文本指令（CLIP 嵌入）；aia_iai 是预测出的 7 自由度机器人动作；ID(⋅)\mathrm{ID}(\cdot)ID(⋅) 是四层 MLP 实现的回归器。这条式子在做什么：把"前一时刻什么样、下一时刻什么样、要完成什么任务"作为线索，直接回归出该执行的动作。和传统在 2D 像素上回归动作相比，这里输入是富含几何的三维点云------深度模糊这个最大的祸根已被前面的几何优化消除，IDM 拿到的是"信息更全的题面"，于是回归动作的不适定性也被同步压低。

四、实验怎么做·结果说明了什么

4.1 数据：把现成数据集"补上"深度和法向

要训练 RGB-DN 模型，得有 RGB-DN 标注，可现成机器人数据集大多只有 RGB。TesserAct 的解法是用现成模型给老数据"补标"，凑出约 28.5 万段对齐视频：

数据集	类型	深度来源	法向来源	规模
RLBench	仿真	模拟器真值	Depth2Normal	8 万
RT-1 Fractal	真实	RollingDepth	Marigold-LCM	8 万
Bridge	真实	RollingDepth	Marigold-LCM	2.5 万
Something-Something V2	人类视频	RollingDepth	Marigold-LCM	10 万

注意它把人类操作视频（SSv2）也纳了进来------这正是 WAM 的一大优势：人类视频里蕴含的物理直觉，能通过这种统一的 RGB-DN 表征被一并吸收。仿真数据还借用了 Colosseum 的场景随机化（换背景、纹理、光照）来增强多样性。

4.2 操作任务：RLBench 上全面领先

在 RLBench 的 9 个操作任务上（每任务 100 个回合），与行为克隆基线（Image-BC）和视频规划基线（UniPi 的复现版）对比：

任务	Image-BC	UniPi*	TesserAct
关盒子	53	81	88
开抽屉	4	67	80
开罐子	0	38	44
摘苹果	---	72	70
平均	~14	~61	~69

可以读出两层信息：第一，TesserAct 平均成功率（约 69%）显著超过纯像素规划的 UniPi（约 61%）和行为克隆（约 14%） ，尤其在"开抽屉"这类需要精准对位、深度信息至关重要的任务上优势最大（80 对 67）。第二，作者也诚实地指出，在那些只需二维推理的任务（如某些"称重"类任务，62 对 68）上，三维信息反而不是优势------这恰恰反向印证了：TesserAct 的增益，确实来自它补上的那一维几何。

4.3 4D 场景质量：想得更"立体"也更准

除了下游成功率，作者还直接量化了"想象的三维世界"有多准：

深度误差（AbsRel，越低越好）：真实域（Bridge/RT-1）上 22.07，明显优于 CogVideoX（26.17）和 OpenSora（31.41）；仿真域上 16.02，同样领先。
点云 Chamfer 距离（衡量两组点云的几何差异，越低越好）：真实域 0.2030，仿真域 0.0811，全面优于 CogVideoX 等基线（仿真域 CogVideoX 高达 0.2884）。
新视角合成：与专门做动态重建的 Shape of Motion 相比，CLIP 分数 83.02 对 66.67，而耗时从约 2 小时压缩到约 1 分钟。

消融实验进一步确认：时间一致性损失和正则项各自都对点云的连贯性有贡献，去掉任何一个都会让时序或空间精度下滑------证明那套几何优化不是花架子，而是 4D 场景质量的关键支撑。

把这几组数字串起来读，逻辑链就完整了：TesserAct 先用 RGB-DN 生成 + 几何优化得到了更准的三维场景 （深度误差、Chamfer 距离全面领先），更准的场景又喂给点云 IDM 得到了更准的动作 （RLBench 平均成功率领先），而新视角合成则顺带证明了它重建出的确实是一段完整的动态三维世界、而非一堆零散的点。三者环环相扣，正好印证了"想得越立体、做得越靠谱"这条主线。

五、亮点与为什么重要

把规划载体从 2D 升级到 4D：这是 TesserAct 最核心的贡献。它第一个系统性地论证了，在级联式 WAM 里，给视频预测注入深度+法向的显式几何约束，能实实在在地转化为下游操作成功率的提升。
"生成 + 几何优化"的两段式范式：不指望神经网络一步到位生成完美三维，而是让生成模型出粗胚、再用可解析的几何约束（法向积分）做精修。这种"学习与几何互补"的思路，简洁且有效。
零初始化的优雅迁移：用零初始化让新模态管线"无痛"接入预训练视频大模型，是一个值得借鉴的工程模板，既不浪费互联网先验，又能扩展输出模态。
统一吸收人类视频：把 SSv2 这类人类操作视频以 RGB-DN 形式纳入训练，体现了 WAM"配对数据 + 非配对数据通吃"的数据哲学。

六、局限与未解

单面几何的天花板 ：RGB-DN 本质上只刻画了相机所见的单一表面 ------它是"一张带深度的照片"，不是完整的封闭三维模型。物体背面、被遮挡处依然是未知数。作者自己也指出，未来更完整的 4D 世界模型，或许需要能生成多视角 RGB-DN 的生成器。
像素级生成的固有开销：和所有级联式像素空间方法一样，先生成 49 帧视频、再跑一轮几何优化，推理并不便宜，离实时高频控制还有距离。
依赖补标质量：真实数据的深度、法向是用现成模型（RollingDepth、Marigold）"补"出来的，并非真值，这层标注噪声会传导进世界模型。
真机验证有限：论文主战场是 RLBench 仿真，真机上的大规模验证相对欠缺。

七、在 WAM 谱系中的位置

把 TesserAct 放回 WAM 大图景：它和 UniPi、VLP、Vidar、Gen2Act 同属"级联式 → 像素空间 → 学习式动作提取"一类，共享"先生成视频、再用 IDM 提动作"的骨架。它的独特坐标，在于沿着"规划表征的空间表达力"这条轴，把标准 RGB 视频推进到了 RGB-D-Normal 的 4D 表征------是这条轴上承上启下的关键一步。

顺着这条线再往前走，就到了本系列的 MVISTA-4D（第 08 篇）：后者同样做 4D 世界模型，但更进一步追求多视角一致性，并且用"轨迹级潜在优化 + 残差 IDM"的两步机制，去替换 TesserAct 这里仍在使用的传统逐步 IDM------可以说，MVISTA-4D 正是站在 TesserAct 的肩膀上，针对它"单面几何"和"逐步 IDM 不适定"两处软肋分别开了药方。理解了 TesserAct，再看 MVISTA-4D 会顺畅许多。

八、参考

论文：TesserAct: Learning 4D Embodied World Models（Haoyu Zhen, Qiao Sun, Hongxin Zhang, Junyan Li, Siyuan Zhou, Yilun Du, Chuang Gan, 2025）
会议：ICCV 2025（计算机视觉 / 机器人方向）
arXiv：https://arxiv.org/abs/2504.20995

注：本文为基于该论文公开信息的学习性解读，方法、数据集与基准名称保留英文原名以便检索；具体数字以原论文为准。