Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

网友：梦一个手办自由

2024-03-19 15:59:31 来源：量子位

网友：梦一个手办自由

鱼羊发自凹非寺

量子位 | 公众号 QbitAI

Stable Diffusion 背后公司 Stability AI 又上新了。

这次带来的是图生 3D 方面的新进展：

基于 Stable Video Diffusion 的 Stable Video 3D（SV3D），只用一张图片就能生成高质量 3D 网格。

Stable Video Diffusion（SVD）是 Stability AI 此前推出的高分辨率视频生成模型。也就是说，此番登场的 SV3D 首次将视频扩散模型应用到了 3D 生成领域。

官方表示，基于此，SV3D 大大提高了 3D 生成的质量和视图一致性。

模型权重依然开源，不过仅可用于非商业用途，想要商用的话还得买个 Stability AI 会员~

话不多说，还是来扒一扒论文细节。

引入潜在视频扩散模型，SV3D 的核心目的是利用视频模型的时间一致性来提高 3D 生成的一致性。

并且视频数据本身也比 3D 数据更容易获得。

Stability AI 这次提供两个版本的 SV3D：

研究人员还改进了 3D 优化技术：采用由粗到细的训练策略，优化 NeRF 和 DMTet 网格来生成 3D 对象。

他们还设计了一种名为掩码得分蒸馏采样（SDS）的特殊损失函数，通过优化在训练数据中不直接可见的区域，来提高生成 3D 模型的质量和一致性。

同时，SV3D 引入了一个基于球面高斯的照明模型，用于分离光照效果和纹理，在保持纹理清晰度的同时有效减少了内置照明问题。

具体到架构方面，SV3D 包含以下关键组成部分：

UNet：SV3D 是在 SVD 的基础上构建的，包含一个多层 UNet，其中每一层都有一系列残差块（包括 3D 卷积层）和两个分别处理空间和时间信息的 Transformer 模块。
条件输入：输入图像通过 VAE 编码器嵌入到潜在空间中，会和噪声潜在状态合并，一起输入到 UNet 中；输入图像的 CLIP 嵌入矩阵则被用作每个 Transformer 模块交叉注意力层的键值对。
相机轨迹编码：SV3D 设计了静态和动态两种类型的轨道来研究相机姿态条件的影响。静态轨道中，相机以规律间隔的方位角围绕对象；动态轨道则允许不规则间隔的方位角和不同的仰角。

相机的运动轨迹信息和扩散噪声的时间信息会一起输入到残差模块中，转换为正弦位置嵌入，然后这些嵌入信息会被整合并进行线性变换，加入到噪声时间步长嵌入中。

这样的设计旨在通过精细控制相机轨迹和噪声输入，提升模型处理图像的能力。