【3DV 进阶-10】Trellis 中的表示 SLat 理解（1）

本系列讨论：Structured 3D Latents for Scalable and Versatile 3D Generation（CVPR25 Spotlight）

一、Structured Latent Representation（SLAT）核心定义

SLAT 是一种统一的3D latent表示 ，专为高质量、多格式3D生成设计。其核心思想是：在稀疏3D网格 上定义局部 latent 向量，通过融合强大视觉基础模型提取的多视角特征，同时编码3D资产的几何结构（geometry） 和纹理外观（texture），并支持解码为多种3D格式（如3D Gaussians、Radiance Fields、网格meshes）。

数学定义上，SLAT 可表示为：
z = { ( z i , p i ) } i = 1 L , z i ∈ R C , p i ∈ { 0 , 1 , . . . , N − 1 } 3 z=\left\{\left(z_{i}, p_{i}\right)\right\}{i=1}^{L}, z{i} \in \mathbb{R}^{C}, p_{i} \in\{0,1, ..., N-1\}^{3} z={(zi,pi)}i=1L,zi∈RC,pi∈{0,1,...,N−1}3

p i p_i pi：活跃体素（active voxel）的位置索引，这些体素与3D资产表面相交，构成粗粒度几何结构；
z i z_i zi：附着在活跃体素上的局部 latent 向量，编码细粒度的几何细节和纹理外观；
N N N：3D网格的空间分辨率（默认 ( N=64 )，即 ( 64^3 ) 网格）；
L L L：活跃体素数量（因3D数据稀疏性，( L \ll N^3 )，默认平均 ( L=20K )）。

二、核心问题：SLAT 是否同时包含 Geometry 和 Texture？

是，SLAT 通过"稀疏网格结构 + 多视角视觉特征融合"的设计，同时完整编码3D资产的几何结构（geometry）和纹理外观（texture），两者分工明确且互补：

1. 几何结构（Geometry）的编码

几何信息主要由两部分承载：

粗粒度结构：由活跃体素 ( p_i ) 直接定义。活跃体素的位置分布勾勒出3D资产的整体轮廓（如物体的形状、大小、关键部件的空间布局），相当于"骨架"；
细粒度细节：局部 latent 向量 ( z_i ) 中包含表面细节的几何信息（如边缘锐利度、曲面曲率、微小凸起/凹陷），这些信息来自多视角图像特征的聚合，补充粗网格无法捕捉的精细几何。

例如，生成"带皮革外壳的复古相机"时，活跃体素 ( p_i ) 定义相机的整体长方体形状、镜头的圆柱形凸起；而 ( z_i ) 编码镜头边缘的弧度、皮革表面的细微纹理对应的几何起伏。

2. 纹理外观（Texture）的编码

纹理信息完全由局部 latent 向量 ( z_i ) 承载，其来源是多视角视觉特征的聚合：

对每个3D资产，从球面随机采样的多个相机视角渲染图像；
用预训练的视觉基础模型（DINOv2）提取这些图像的特征图；
将每个活跃体素 ( p_i ) 投影到多视角特征图中，取对应位置特征的平均值作为 ( z_i ) 的核心成分。

DINOv2 特征本身具备强大的纹理、颜色、材质表征能力，因此 ( z_i ) 能精准捕捉3D资产的纹理细节（如皮革的粗糙感、金属的光泽、木材的纹理）、颜色分布（如红色屋顶、银色金属部件）和材质属性（如透明玻璃、磨砂塑料）。

3. 两者的协同与验证

SLAT 的解码过程进一步证明其同时包含几何和纹理信息：

解码为 3D Gaussians/Radiance Fields 时：( z_i ) 解码为高斯分布的颜色（纹理）、尺度/旋转（几何），或辐射场的颜色（纹理）和密度（几何）；
解码为 网格（meshes） 时：( z_i ) 解码为网格顶点的位置（几何）、颜色（纹理）和法向量（几何细节）；
实验验证：在重建任务中，SLAT 同时超越基线方法的几何指标（Chamfer Distance、F-score）和外观指标（PSNR、LPIPS），证明其对两种信息的编码均具备高保真度（见表1）。

三、SLAT 实现"几何+纹理统一编码"的关键设计

稀疏网格结构：既保证几何结构的显式表达（活跃体素定义轮廓），又通过稀疏性降低计算成本，支持高分辨率（( 64^3 )）编码；
视觉基础模型赋能：借助 DINOv2 的强表征能力，无需专门设计3D编码器，直接通过多视角图像特征聚合，同时获取几何和纹理信息，避免了传统方法中"几何与纹理分离建模"的缺陷；
局部 latent 绑定：每个 latent 向量 ( z_i ) 与特定活跃体素 ( p_i ) 绑定，确保几何位置与对应的纹理/细节信息一一对应，解码时不会出现"纹理错位"或"几何与纹理不匹配"。

总结

SLAT 的核心优势正是统一编码几何与纹理：通过"稀疏网格定义粗几何 + 多视角视觉特征定义细几何+纹理"的双层结构，既解决了传统3D表示中"几何与纹理分离"的问题，又支持灵活解码为多种3D格式，为后续的高质量生成和编辑奠定了基础。