【3DV 进阶-10】Trellis 中的表示 SLat 理解(1)

本系列讨论:Structured 3D Latents for Scalable and Versatile 3D Generation(CVPR25 Spotlight)

一、Structured Latent Representation(SLAT)核心定义

SLAT 是一种统一的3D latent表示 ,专为高质量、多格式3D生成设计。其核心思想是:在稀疏3D网格 上定义局部 latent 向量,通过融合强大视觉基础模型提取的多视角特征,同时编码3D资产的几何结构(geometry)纹理外观(texture),并支持解码为多种3D格式(如3D Gaussians、Radiance Fields、网格meshes)。

数学定义上,SLAT 可表示为:
z = { ( z i , p i ) } i = 1 L , z i ∈ R C , p i ∈ { 0 , 1 , . . . , N − 1 } 3 z=\left\{\left(z_{i}, p_{i}\right)\right\}{i=1}^{L}, z{i} \in \mathbb{R}^{C}, p_{i} \in\{0,1, ..., N-1\}^{3} z={(zi,pi)}i=1L,zi∈RC,pi∈{0,1,...,N−1}3

  • p i p_i pi:活跃体素(active voxel)的位置索引,这些体素与3D资产表面相交,构成粗粒度几何结构
  • z i z_i zi:附着在活跃体素上的局部 latent 向量,编码细粒度的几何细节和纹理外观
  • N N N:3D网格的空间分辨率(默认 ( N=64 ),即 ( 64^3 ) 网格);
  • L L L:活跃体素数量(因3D数据稀疏性,( L \ll N^3 ),默认平均 ( L=20K ))。

二、核心问题:SLAT 是否同时包含 Geometry 和 Texture?

,SLAT 通过"稀疏网格结构 + 多视角视觉特征融合"的设计,同时完整编码3D资产的几何结构(geometry)和纹理外观(texture),两者分工明确且互补:

1. 几何结构(Geometry)的编码

几何信息主要由两部分承载:

  • 粗粒度结构:由活跃体素 ( p_i ) 直接定义。活跃体素的位置分布勾勒出3D资产的整体轮廓(如物体的形状、大小、关键部件的空间布局),相当于"骨架";
  • 细粒度细节:局部 latent 向量 ( z_i ) 中包含表面细节的几何信息(如边缘锐利度、曲面曲率、微小凸起/凹陷),这些信息来自多视角图像特征的聚合,补充粗网格无法捕捉的精细几何。

例如,生成"带皮革外壳的复古相机"时,活跃体素 ( p_i ) 定义相机的整体长方体形状、镜头的圆柱形凸起;而 ( z_i ) 编码镜头边缘的弧度、皮革表面的细微纹理对应的几何起伏。

2. 纹理外观(Texture)的编码

纹理信息完全由局部 latent 向量 ( z_i ) 承载,其来源是多视角视觉特征的聚合

  • 对每个3D资产,从球面随机采样的多个相机视角渲染图像;
  • 用预训练的视觉基础模型(DINOv2)提取这些图像的特征图;
  • 将每个活跃体素 ( p_i ) 投影到多视角特征图中,取对应位置特征的平均值作为 ( z_i ) 的核心成分。

DINOv2 特征本身具备强大的纹理、颜色、材质表征能力,因此 ( z_i ) 能精准捕捉3D资产的纹理细节(如皮革的粗糙感、金属的光泽、木材的纹理)、颜色分布(如红色屋顶、银色金属部件)和材质属性(如透明玻璃、磨砂塑料)。

3. 两者的协同与验证

SLAT 的解码过程进一步证明其同时包含几何和纹理信息:

  • 解码为 3D Gaussians/Radiance Fields 时:( z_i ) 解码为高斯分布的颜色(纹理)、尺度/旋转(几何),或辐射场的颜色(纹理)和密度(几何);
  • 解码为 网格(meshes) 时:( z_i ) 解码为网格顶点的位置(几何)、颜色(纹理)和法向量(几何细节);
  • 实验验证:在重建任务中,SLAT 同时超越基线方法的几何指标(Chamfer Distance、F-score)和外观指标(PSNR、LPIPS),证明其对两种信息的编码均具备高保真度(见表1)。

三、SLAT 实现"几何+纹理统一编码"的关键设计

  1. 稀疏网格结构:既保证几何结构的显式表达(活跃体素定义轮廓),又通过稀疏性降低计算成本,支持高分辨率(( 64^3 ))编码;
  2. 视觉基础模型赋能:借助 DINOv2 的强表征能力,无需专门设计3D编码器,直接通过多视角图像特征聚合,同时获取几何和纹理信息,避免了传统方法中"几何与纹理分离建模"的缺陷;
  3. 局部 latent 绑定:每个 latent 向量 ( z_i ) 与特定活跃体素 ( p_i ) 绑定,确保几何位置与对应的纹理/细节信息一一对应,解码时不会出现"纹理错位"或"几何与纹理不匹配"。

总结

SLAT 的核心优势正是统一编码几何与纹理:通过"稀疏网格定义粗几何 + 多视角视觉特征定义细几何+纹理"的双层结构,既解决了传统3D表示中"几何与纹理分离"的问题,又支持灵活解码为多种3D格式,为后续的高质量生成和编辑奠定了基础。

相关推荐
wuweijianlove5 小时前
算法性能的渐近与非渐近行为对比的技术4
算法
A__tao5 小时前
Elasticsearch Mapping 一键生成 Java 实体类(支持嵌套 + 自动过滤注释)
java·python·elasticsearch
墨染天姬5 小时前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
研究点啥好呢5 小时前
Github热门项目推荐 | 创建你的像素风格!
c++·python·node.js·github·开源软件
_dindong5 小时前
cf1091div2 C.Grid Covering(数论)
c++·算法
AI成长日志5 小时前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
SharpCJ5 小时前
Android 开发者为什么必须掌握 AI 能力?端侧视角下的技术变革
android·ai·aigc
2501_948114245 小时前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠5 小时前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
迷藏4945 小时前
**发散创新:基于Rust实现的开源合规权限管理框架设计与实践**在现代软件架构中,**权限控制(RBAC)** 已成为保障
java·开发语言·python·rust·开源