论文阅读笔记——TesserAct: Learning 4D Embodied World Models

TesserAct 论文

采用RGB-DN（RGB+深度+法线） 作为 4D 场景中间表示，由此建模 4D 场景，比纯 2D 视频更准确地建模 3D 几何结构。相比现有的 4D 视频生成，优化速度快，收敛好，且首次从当前帧和文本描述的具身智能体动作直接预测4D场景。

建模分布为 p ( v , d , n ∣ v 0 , d 0 , n 0 , T ) p(v,d,n|v^0,d^0,n^0,T) p(v,d,n∣v0,d0,n0,T) 其中 v, d, n 表示预测的未来 RGB、深度图和法线图的潜在序列， v 0 v^0 v0、 d 0 d^0 d0、 n 0 n^0 n0 是 RGB 图像、深度和法线图的潜在表示以及具身智能体的文本动作。
q ( z t ∣ z t − 1 ) = N ( z t ; α t z t − 1 , ( 1 − α t ) I ) p θ ( x t − 1 ∣ x t , x 0 , T ) = N ( x t − 1 ; μ θ ( x t , t , x 0 , T ) , Σ θ ( x t , t ) ) \begin{aligned}q(\mathbf{z}t|\mathbf{z}{t-1})=\mathcal{N}\left(\mathbf{z}t;\sqrt{\alpha_t}\mathbf{z}{t-1},(1-\alpha_t)\mathbf{I}\right)\\p_\theta(\mathbf{x}{t-1}|\mathbf{x}t,\mathbf{x}^0,\mathcal{T})=\mathcal{N}\left(\mathbf{x}{t-1};\mu\theta(\mathbf{x}t,t,\mathbf{x}^0,\mathcal{T}),\Sigma\theta(\mathbf{x}_t,t)\right)\end{aligned} q(zt∣zt−1)=N(zt;αt zt−1,(1−αt)I)pθ(xt−1∣xt,x0,T)=N(xt−1;μθ(xt,t,x0,T),Σθ(xt,t))

通过法线积分优化深度：

在第 i 帧的 2D 图像坐标系中，像素位置 u = ( u , v ) T ∈ V i u =(u,v)^T\in\boldsymbol{V}^i u=(u,v)T∈Vi，其对应的深度标量、法向量为 d ∈ D i , n = ( n x , n y , n z ) ∈ N 2 d\in D^i, \quad n=(n_x,n_y,n_z)\in N^2 d∈Di,n=(nx,ny,nz)∈N2。在焦距为 f，主点为 ( c u , c v ) T (c_u,c_v)^T (cu,cv)T 的透视相机假设下，对数深度 d ~ = l o g ( d ) \tilde{d}=log(d) d~=log(d) 应满足一下方程： n ~ z ∂ v d ~ + n x = 0 \tilde{n}_z\partial_v\tilde{d}+n_x=0 n~z∂vd~+nx=0 和 n ~ z ∂ v d ~ + n y = 0 \tilde{n}z\partial_v\tilde{d}+n_y=0 n~z∂vd~+ny=0，其中 n ~ = n x ( u − c x ) + n y ( v − c y ) + n z f \tilde{n}=n_x(u-c_x)+n_y(v-c_y)+n_zf n~=nx(u−cx)+ny(v−cy)+nzf。由此得到：
min ⁡ d ∬ Ω ( n ~ z ∂ u d ~ + n x ) 2 + ( n ~ z ∂ u d ~ + n y ) 2 d u d v . \min_d\iint\Omega(\tilde{n}_z\partial_u\tilde{d}+n_x)^2+(\tilde{n}_z\partial_u\tilde{d}+n_y)^2\mathrm{d}u\mathrm{d}v. dmin∬Ω(n~z∂ud~+nx)2+(n~z∂ud~+ny)2dudv.

转化为迭代预测得到：
d ~ t + 1 = arg ⁡ min ⁡ d ~ ( A d ~ − b ) T W ( d ~ t ) ( A d ~ − b ) = ⁡ d e f arg ⁡ min ⁡ D ~ L s ( D ~ , N i ) \tilde{d}{t+1}=\arg\min{\tilde{d}}(A\tilde{d}-b)^TW(\tilde{d}t)(A\tilde{d}-b)\overset{\mathsf{def}}{\operatorname*{=}}\arg\min{\tilde{\mathcal{D}}}\mathcal{L}_s(\tilde{\mathcal{D}},\mathcal{N}^i) d~t+1=argd~min(Ad~−b)TW(d~t)(Ad~−b)=defargD~minLs(D~,Ni)

数据集：从 RLBench 中选择 20 个难度较高的任务，为每个任务从 4 个不同视角生成 1000 个实例，共生成 80k 个合成 4D 具身视频。虽然模拟器提供了度量深度信息，但缺乏表面法线数据，我们使用DSINE中的depth2normal 函数估计法线，并采用场景随机化技术增强泛化性。合成数据的多样性有限，与现实场景存在差距。纳入了现实世界视频数据集，利用 RollingDepth 为其标注仿射不变深度，使用 Temporal-Consistent Marigold-LCM-normal1 标注法线图。我们还选择了 OpenX 中的 Fractal data 和 Bridge 数据集，并纳入了人类 - 物体交互数据集 Something Something V2，以增加指令的多样性。
模型：使用 CogVideoX 中的 3D VAE 分别对 RGB、深度和法线视频进行编码，不额外微调 VAE。输入设计上，为每个模态引入三个单独的投影仪提取嵌入： f z = I n p u t P r o j ( z t , z 0 ) f_z=InputProj(z_t,z_0) fz=InputProj(zt,z0)。DiT 以这些嵌入的和为输入，结合文本输入 T 和去噪步骤 t，得到隐藏状态 h = D i T ( ∑ f z , t , T ) h=DiT(\sum f_z,t,T) h=DiT(∑fz,t,T)。输出方面，保留原始 RGB 输出方法，同时为深度和法线预测引入额外模块，通过Conv3D层编码输入潜在和预测的RGB去噪输出的连接，与DiT骨干网络产生的隐藏状态结合，经过输出投影仪得到深度和法线的去噪预测。 L = E v 0 , T , t , ϵ [ ∥ [ ϵ v , ϵ d , ϵ n ] − ϵ θ ( x t , t , x 0 , T ) ∥ 2 ] L=\mathbb{E}{\mathbf{v}0,\mathcal{T},t,\epsilon}\left[\left\|[\epsilon\mathbf{v},\epsilon\mathbf{d},\epsilon_\mathbf{n}]-\epsilon_\theta(\mathbf{x}_t,t,\mathbf{x}^0,\mathcal{T})\right\|^2\right] L=Ev0,T,t,ϵ[ [ϵv,ϵd,ϵn]−ϵθ(xt,t,x0,T) 2]
4D 场景重建 ：输入深度图 D i D_i Di 是归一化的绝对值（[0,1]），无法直接用于 3D 重建；之前方法假设固定尺度或预测绝对深度，但重建结果粗糙；采用法线图 N i N_i Ni 通过法线积分 优化深度，得到初步深度图 D ^ \hat{D} D^，并加空间一致性损失 c s c_s cs。单纯逐帧优化会导致动态场景的深度抖动，因此引入 光流（Optical Flow） 约束跨帧一致性：
- 静态/动态区域分割 ：计算相邻帧光流 F = R A F T ( V ) F=RAFT(V) F=RAFT(V)；静态区域掩码 M i s M_i^s Mis------ ∣ ∣ F i ∣ ∣ ≤ c ||F_i||≤c ∣∣Fi∣∣≤c；动态区域掩码 M i d M_i^d Mid------剩余部分， M i s M_i^s Mis 的剩余部分；背景区域掩码 M i b M_i^b Mib------动态掩码与静态掩码的交集；
- 跨帧传播 ： D i → ( i − 1 ) ( u , v ) = D i − 1 ( u − Δ u , v − Δ − v ) D_{i→(i-1)}(u,v)=D_{i-1}(u-\Delta u,v-\Delta -v) Di→(i−1)(u,v)=Di−1(u−Δu,v−Δ−v)
- 时间一致性损失 ：根据光流，可以从先前帧检索当前帧对应位置的深度，以施加一致性约束。强制动态区域和背景区域的深度与前一帧对齐： L c = λ c d ∥ D ~ i ∘ M i d − D i → ( i − 1 ) ∘ M i d ∥ 2 + λ c b ∥ D ~ i ∘ M i b − D i → ( i − 1 ) ∘ M i b ∥ 2 \mathcal{L}c=\lambda{cd}\|\tilde{D}i\circ M_i^d-D{i\to(i-1)}\circ M_i^d\|^2+\lambda_{cb}\|\tilde{D}i\circ M_i^b-D{i\to(i-1)}\circ M_i^b\|^2 Lc=λcd∥D~i∘Mid−Di→(i−1)∘Mid∥2+λcb∥D~i∘Mib−Di→(i−1)∘Mib∥2
- 深度正则化损失 ：防止优化后的深度 D ~ i \tilde{D}i D~i 过度偏离初始预测 D i D_i Di： L r = λ r d ∥ D ~ i ∘ M i d − D i ∘ M i d ∥ 2 + λ r b ∥ D ~ i ∘ M i b − D i ∘ M i b ∥ 2 \mathcal{L}r=\lambda{rd}\|\tilde{D}i\circ M_i^d-D_i\circ M_i^d\|^2+\lambda{rb}\|\tilde{D}i\circ M_i^b-D_i\circ M_i^b\|^2 Lr=λrd∥D~i∘Mid−Di∘Mid∥2+λrb∥D~i∘Mib−Di∘Mib∥2 arg ⁡ min ⁡ D ~ L s ( D ~ , N i ) ⏟ 法线约束 + L c ( D ~ , D ^ i − 1 , F i , F i − 1 ) ⏟ 时间约束 + L r ( D ~ , D i ) ⏟ 正则化 \arg\min{\tilde{D}}\underbrace{\mathcal{L}s(\tilde{D},N_i)}{\text{法线约束}}+\underbrace{\mathcal{L}c(\tilde{D},\hat{D}{i-1},F_i,F{i-1})}_{\text{时间约束}}+\underbrace{\mathcal{L}r(\tilde{D},D_i)}{\text{正则化}} argD~min法线约束 Ls(D~,Ni)+时间约束 Lc(D~,D^i−1,Fi,Fi−1)+正则化 Lr(D~,Di)

实验结果

凭借更好的深度和法线图，方法重建的4D点云在真实和合成数据集上均实现了最低的Chamfer距离。4D Point-E方法在RLBench上的表现优于视频扩散模型，但仍落后于我们的方法。此外，直接使用点云进行训练计算成本高昂，限制了所用的帧数。相比之下，我们的模型利用RGB-DN视频的高效表示生成更精确的4D场景，尤其在捕捉动态场景的细粒度细节方面表现出色。