TRELLIS 是一个由微软研究院等机构联合开发的大型AI 3D资产生成模型。它的核心特点是能够根据文本或图像提示,在几分钟内生成高质量、带纹理的3D模型,并支持多种输出格式。
你可以将它看作是上一轮提到的Wonder3D的"进阶版"或"同级竞品",但TRELLIS在功能的全面性和输出质量上更进一步。下面是它的核心特性总结:
| 特性 | 具体说明 |
|---|---|
| 核心技术 | 采用名为结构化潜变量 (Structured LATents, SLAT) 的统一表示框架,能同时捕捉物体的几何结构和视觉外观。 |
| 输入方式 | 支持文本生成3D 和图像生成3D两种模式。官方推荐先由文本生成图像,再用图像生成3D,效果更佳。 |
| 输出格式 | 非常灵活,可以输出3D高斯泼溅 (3D Gaussians) 、辐射场 (Radiance Fields) 和网格模型 (Meshes),并支持导出为GLB、OBJ、STL等通用格式。 |
| 模型规模 | 提供了从3.42亿参数 到20亿参数不等的多个预训练模型,更大的模型意味着更高的生成质量。 |
| 数据基础 | 在一个包含50万个多样化3D对象的大规模数据集(TRELLIS-500K)上训练而成。 |
| 研发机构 | 由清华大学、中国科学技术大学和微软研究院的专家共同研发。 |
🚀 核心能力与应用
TRELLIS的核心优势体现在以下几个方面:
- 高质量的生成:它生成的3D资产在几何细节和纹理精度上都达到了专业级别,可以和传统手工建模相媲美。相比之前的模型,TRELLIS在质量上实现了显著超越。
- 灵活的可编辑性 :不仅可以从头生成,还能对生成的3D资产进行局部编辑 ,或快速生成同一物体的多种变体,为创作提供了极大的自由度。
- 广泛的应用场景 :这些能力使其在游戏开发 (快速生成道具、环境)、产品设计 (从草图到3D原型)、电商展示 (3D商品预览)、VR/AR内容制作等领域都有很高的实用价值。
⚙️ 如何使用
你可以通过几种方式使用TRELLIS:
- 在线体验 :访问其官方网站(如
trellis3d.co)提供的在线Demo,直接上传图片体验图生3D的功能。 - 本地部署:TRELLIS代码已在GitHub上开源。如果你有合适的硬件(如NVIDIA A100或A6000显卡,显存至少16GB),可以按照官方指引在本地Linux系统上部署和运行。
- 云端服务 :TRELLIS也已作为NVIDIA NIM微服务提供,可以方便地集成到企业级的AI工作流中。
简单来说,TRELLIS是当前AI生成3D领域功能非常强大的工具之一。它和Wonder3D都代表了从2D到3D的范式转变,但TRELLIS凭借其灵活的输入输出、强大的模型规模和可编辑能力,在通用性和专业性上表现更为突出。
结构化潜变量 (Structured LATents, SLAT) 介绍
结构化潜变量(SLAT)是TRELLIS模型的核心技术,是一种全新的3D数据"通用语言"。
它本质上是一种稀疏的、带有结构信息的3D特征表示方法,旨在解决传统3D生成中"格式不统一"和"质量与结构难两全"的核心难题。
你可以从以下几点来理解它:
💡 为什么需要SLAT?
传统的3D数据表示方式(如网格、点云、辐射场等)各有局限。简单来说:
- 网格(Meshes):易于编辑,但AI生成时拓扑结构复杂。
- 辐射场(NeRF)/3D高斯(3D Gaussians):渲染效果逼真,但难以提取出干净的几何表面。
这导致大多数AI模型被锁定在单一输出格式上。而SLAT的目标,就是创建一个既能捕捉精确几何结构 ,又能保留丰富外观纹理的统一表示,从而可以灵活地解码成任何需要的格式。
🧠 SLAT是如何工作的?
SLAT的核心设计可以概括为"用稀疏的骨架承载丰富的信息"。
-
空间结构("骨架") :它首先在一个3D网格上,只标记出那些位于物体表面 的体素(Voxel),这些被称为"激活体素 "。因为物体只占空间的一小部分,所以这种稀疏 的方式非常高效。默认情况下,一个
64x64x64的网格,对于普通物体大约只会有2万个激活体素。这些激活体素的位置p_i,就勾勒出了物体的粗略形状。 -
视觉特征("血肉") :仅仅有骨架还不够。SLAT为每一个激活体素都附加了一个局部潜向量
z_i。这个向量并非凭空产生,而是通过一个强大的视觉基础模型(如DINOv2 ),从该物体多角度的渲染图中提取并聚合而来的视觉特征 。这使得z_i富含了该局部区域的精细几何和纹理细节。 -
完整表示 :最终,完整的SLAT表示就是所有这些
(位置, 特征)对的集合:z = {(z_i, p_i)}。它用结构化的位置锚定了特征,让AI既知道"这里有什么",又知道"它在哪里"。
🚀 SLAT带来了什么能力?
基于这种设计,SLAT赋予了TRELLIS几个关键能力:
- 多格式输出(Versatility) :因为SLAT统一了"结构"和"外观"信息,TRELLIS可以训练三个不同的解码器,将同一个SLAT分别解码为3D高斯、辐射场和网格模型,满足不同的下游应用需求。
- 高质量生成(High Quality):通过结合DINOv2强大的视觉先验,SLAT能够捕捉到非常精细的纹理和几何细节,生成的资产质量超越了以往很多方法。
- 灵活编辑(Flexible Editing) :由于SLAT是"结构化"的,每个局部特征
z_i都对应着物体表面的一个特定区域。这使得对生成结果进行局部编辑、添加或删除成为可能,这也是以往模型难以做到的。