大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩

为满足元宇宙中对 3D 创意工具不断增长的需求,三维内容生成(3D AIGC)最近受到相当多的关注。并且,3D 内容创作在质量和速度方面都取得了显著进展。

尽管当前的前馈式生成模型可以在几秒钟内生成 3D 对象,但它们的分辨率受到训练期间所需密集计算的限制,进而导致生成低质量的内容。这就产生了一个问题,能否只用 5 秒钟来生成高分辨率高质量的 3D 物体?

本文中,来自北京大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究者提出了一个新的框架 LGM,即 Large Gaussian Model,实现了从单视角图片或文本输入只需 5 秒钟即可生成高分辨率高质量三维物体。

目前,代码和模型权重均已开源。研究者还提供了一个在线 Demo 供大家试玩。

想要达成这样的目标,研究者面临着如下两个挑战:

  1. 有限计算量下的高效 3D 表征:已有三维生成工作使用基于三平面的 NeRF 作为三维表征和渲染管线,其对场景的密集建模和光线追踪的体积渲染技术极大地限制了其训练分辨率(128×128),使得最终生成的内容纹理模糊、质量差。

  2. 高分辨率下的三维骨干生成网络:已有三维生成工作使用密集的 transformer 作为主干网络以保证足够密集的参数量来建模通用物体,但这一定程度上牺牲了训练分辨率,导致最终的三维物体质量不高。

为此,本文提出了一个全新的方法来从四个视角图片中合成高分辨率三维表征,进而通过已有的文本到多视角图像或单图到多视角图像的模型来支持高质量的 Text-to-3D 和 Image-to-3D 任务

在技术上,LGM 核心模块是 Large Multi-View Gaussian Model。受到高斯溅射的启发,该方法使用一个高效轻量的非对称 U-Net 作为骨干网络,直接从四视角图片中预测高分辨率的高斯基元,并最终渲染为任意视角下的图片。

具体而言,骨干网络 U-Net 接受四个视角的图像和对应的普吕克坐标,输出多视角下的固定数量高斯特征。这一组高斯特征被直接融合为最终的高斯基元并通过可微渲染得到各个视角下的图像。

在这一过程中,使用了跨视角的自注意力机制在低分辨率的特征图上实现了不同视角之间的相关性建模,同时保持了较低的计算开销。

值得注意的是,在高分辨率下高效训练这样的模型并非易事。为实现稳健的训练,研究者仍面临以下两个问题。

一是由于训练阶段使用 objaverse 数据集中渲染出的三维一致的多视角图片,而在推理阶段直接使用已有的模型来从文本或图像中合成多视角图片。而由于基于模型合成的多视角图片总会存在多视角不一致的问题,为了弥补这一域差距,本文提出了基于网格畸变的数据增强策略:在图像空间中对三个视角的图片施加随机畸变来模拟多视角不一致性

二是由于推理阶段生成的多视角图片并不严格保证相机视角三维几何的一致,因此本文也对三个视角的相机位姿进行随机扰动来模拟这一现象,使得模型在推理阶段更加稳健

最后,通过可微分渲染将生成的高斯基元渲染为对应图像,通过监督学习直接端到端地在二维图像上来学习。

训练完成后,LGM 通过现有的图像到多视角或者文本到多视角扩散模型,即可实现高质量的 Text-to-3D 和 Image-to-3D 任务。

给定同样的输入文本或图像,该方法能够生成多样的高质量三维模型。

为了更进一步支持下游图形学任务,研究者还提出了一个高效的方法来将生成的高斯表征转换为平滑且带纹理的 Mesh:

更多细节内容请参阅原论文。

相关推荐
速融云1 小时前
汽车制造行业案例 | 发动机在制造品管理全解析(附解决方案模板)
大数据·人工智能·自动化·汽车·制造
孟健2 小时前
重磅首发:国产AI编程助手Trae实测!免费用上Claude是什么体验?
前端·aigc·visual studio code
AI明说2 小时前
什么是稀疏 MoE?Doubao-1.5-pro 如何以少胜多?
人工智能·大模型·moe·豆包
XianxinMao2 小时前
重构开源LLM分类:从二分到三分的转变
人工智能·语言模型·开源
Elastic 中国社区官方博客2 小时前
使用 Elasticsearch 导航检索增强生成图表
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
云天徽上3 小时前
【数据可视化】全国星巴克门店可视化
人工智能·机器学习·信息可视化·数据挖掘·数据分析
大嘴吧Lucy3 小时前
大模型 | AI驱动的数据分析:利用自然语言实现数据查询到可视化呈现
人工智能·信息可视化·数据分析
艾思科蓝 AiScholar3 小时前
【连续多届EI稳定收录&出版级别高&高录用快检索】第五届机械设计与仿真国际学术会议(MDS 2025)
人工智能·数学建模·自然语言处理·系统架构·机器人·软件工程·拓扑学
watersink4 小时前
面试题库笔记
大数据·人工智能·机器学习
Yuleave4 小时前
PaSa:基于大语言模型的综合学术论文搜索智能体
人工智能·语言模型·自然语言处理