大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩

为满足元宇宙中对 3D 创意工具不断增长的需求,三维内容生成(3D AIGC)最近受到相当多的关注。并且,3D 内容创作在质量和速度方面都取得了显著进展。

尽管当前的前馈式生成模型可以在几秒钟内生成 3D 对象,但它们的分辨率受到训练期间所需密集计算的限制,进而导致生成低质量的内容。这就产生了一个问题,能否只用 5 秒钟来生成高分辨率高质量的 3D 物体?

本文中,来自北京大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究者提出了一个新的框架 LGM,即 Large Gaussian Model,实现了从单视角图片或文本输入只需 5 秒钟即可生成高分辨率高质量三维物体。

目前,代码和模型权重均已开源。研究者还提供了一个在线 Demo 供大家试玩。

想要达成这样的目标,研究者面临着如下两个挑战:

  1. 有限计算量下的高效 3D 表征:已有三维生成工作使用基于三平面的 NeRF 作为三维表征和渲染管线,其对场景的密集建模和光线追踪的体积渲染技术极大地限制了其训练分辨率(128×128),使得最终生成的内容纹理模糊、质量差。

  2. 高分辨率下的三维骨干生成网络:已有三维生成工作使用密集的 transformer 作为主干网络以保证足够密集的参数量来建模通用物体,但这一定程度上牺牲了训练分辨率,导致最终的三维物体质量不高。

为此,本文提出了一个全新的方法来从四个视角图片中合成高分辨率三维表征,进而通过已有的文本到多视角图像或单图到多视角图像的模型来支持高质量的 Text-to-3D 和 Image-to-3D 任务

在技术上,LGM 核心模块是 Large Multi-View Gaussian Model。受到高斯溅射的启发,该方法使用一个高效轻量的非对称 U-Net 作为骨干网络,直接从四视角图片中预测高分辨率的高斯基元,并最终渲染为任意视角下的图片。

具体而言,骨干网络 U-Net 接受四个视角的图像和对应的普吕克坐标,输出多视角下的固定数量高斯特征。这一组高斯特征被直接融合为最终的高斯基元并通过可微渲染得到各个视角下的图像。

在这一过程中,使用了跨视角的自注意力机制在低分辨率的特征图上实现了不同视角之间的相关性建模,同时保持了较低的计算开销。

值得注意的是,在高分辨率下高效训练这样的模型并非易事。为实现稳健的训练,研究者仍面临以下两个问题。

一是由于训练阶段使用 objaverse 数据集中渲染出的三维一致的多视角图片,而在推理阶段直接使用已有的模型来从文本或图像中合成多视角图片。而由于基于模型合成的多视角图片总会存在多视角不一致的问题,为了弥补这一域差距,本文提出了基于网格畸变的数据增强策略:在图像空间中对三个视角的图片施加随机畸变来模拟多视角不一致性

二是由于推理阶段生成的多视角图片并不严格保证相机视角三维几何的一致,因此本文也对三个视角的相机位姿进行随机扰动来模拟这一现象,使得模型在推理阶段更加稳健

最后,通过可微分渲染将生成的高斯基元渲染为对应图像,通过监督学习直接端到端地在二维图像上来学习。

训练完成后,LGM 通过现有的图像到多视角或者文本到多视角扩散模型,即可实现高质量的 Text-to-3D 和 Image-to-3D 任务。

给定同样的输入文本或图像,该方法能够生成多样的高质量三维模型。

为了更进一步支持下游图形学任务,研究者还提出了一个高效的方法来将生成的高斯表征转换为平滑且带纹理的 Mesh:

更多细节内容请参阅原论文。

相关推荐
非门由也几秒前
《sklearn机器学习——管道和复合估计器》联合特征(FeatureUnion)
人工智能·机器学习·sklearn
l12345sy几秒前
Day21_【机器学习—决策树(1)—信息增益、信息增益率、基尼系数】
人工智能·决策树·机器学习·信息增益·信息增益率·基尼指数
非门由也几秒前
《sklearn机器学习——管道和复合估算器》异构数据的列转换器
人工智能·机器学习·sklearn
计算机毕业设计指导11 分钟前
基于ResNet50的智能垃圾分类系统
人工智能·分类·数据挖掘
飞哥数智坊16 分钟前
终端里用 Claude Code 太难受?我把它接进 TRAE,真香!
人工智能·claude·trae
小王爱学人工智能1 小时前
OpenCV的阈值处理
人工智能·opencv·计算机视觉
新智元1 小时前
刚刚,光刻机巨头 ASML 杀入 AI!豪掷 15 亿押注「欧版 OpenAI」,成最大股东
人工智能·openai
机器之心1 小时前
全球图生视频榜单第一,爱诗科技PixVerse V5如何改变一亿用户的视频创作
人工智能·openai
大模型教程1 小时前
AI Agent 发展趋势与架构演进
程序员·llm·agent
新智元1 小时前
2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没
人工智能·openai