[23] IPDreamer: Appearance-Controllable 3D Object Generation with Image Prompts

pdf

  • Text-to-3D任务中,对3D模型外观的控制不强,本文提出IPDreamer来解决该问题。
  • 在NeRF Training阶段,IPDreamer根据文本用ControlNet生成参考图,并将参考图作为Zero 1-to-3的控制条件,用基于Zero 1-to-3的SDS损失生成粗NeRF。
  • 在Mesh Training阶段,IPDreamer将NeRF用DMTet转换为3D Mesh,并分别优化Mesh的几何与纹理。1)用参考图的法向图编码作为控制信号,用IPSD (Image Prompt Score Distillation) 优化3D Mesh的几何;2)用渲染rgb图像编码(和法向图差异)作为控制信号,用IPSD优化3D Mesh的纹理。
  • 将Text-to-3D任务,转换为单图重建任务,实现了更好的外观控制。

目录

Method

[NeRF Training](#NeRF Training)

[Mesh Training](#Mesh Training)

Experiments

[Some Results](#Some Results)

[​编辑Comparison with SOTA Text-to-3D Methods](#编辑Comparison with SOTA Text-to-3D Methods)


Method

NeRF Training

  • Image Generation. 给定文本描述和控制条件,本文用ControlNet生成参考图片。
  • Training of the Coarse NeRF Model. 给定参考图片,本文用基于Zero 1-to-3的SDS损失生成粗NeRF。

Mesh Training

  • Mesh Extraction. 给定粗NeRF,本文用DMTet将其转换为3D Mesh。3D Mesh由顶点V和四面体T(tetrahedrons)组成。每个顶点包含一个signed distance field (SDF) 值和形变值组成。描述了相较于初始正则坐标的变换。本文基于IPSD优化
  • Geometry Optimization. Fantasia3D和ProlificDreamer用SDS优化3D Mesh的法向图,实现几何优化。但常用扩散模型缺少法向图的训练数据,导致几何优化效果不佳。为解决该问题,本文引入法向图编码,其中是IP-Adapter的denosing model。IPSD几何损失表达如下:
  • Texture Optimization. 首先,提取参考图像编码。其次,计算渲染角度和参考角度的法向图编码,并计算差值得到。这一步的目的是希望用来表征任意渲染角度图像的图像编码。IPSD纹理损失表达如下:

Experiments

Some Results

Comparison with SOTA Text-to-3D Methods

相关推荐
云飞云共享云桌面1 天前
SolidWorks 服务器通过云飞云共享云桌面10人研发共享方案
运维·服务器·3d·设计模式·电脑
木斯佳1 天前
HarmonyOS 6 ArkGraphics 3D精讲:坐标、向量与矩阵——初识3D数学的“空间建模”
线性代数·3d·矩阵
meilindehuzi_a1 天前
Vibe Coding 实战:我用一条 Prompt 指挥 AI “盲盒式”生成 3D 积木物理世界
3d·prompt
小飞侠是个胖子1 天前
在 WebGL 中构建高性能 3D 沉浸式系统的三套高阶方案
前端·3d
不知名的老吴1 天前
CAXA 3D实体设计保姆级下载和安装教程(图文详解)
3d
DisonTangor2 天前
【SIGGRAPH 2026】Pixal3D: 基于图像的像素对齐三维生成
人工智能·3d·开源·aigc
CG_MAGIC2 天前
主流 3D 软件文件互通互导教程
3d·材质·效果图·建模教程·渲云渲染
大江东去浪淘尽千古风流人物2 天前
【Flow4DGS-SLAM】动态环境3DGS-SLAM:光流引导自运动分解与混合4D Gaussian深度解析(CVPR 2026)
3d·slam·vio·光流·动态场景
BY组态22 天前
数字孪生Web3D效果定制呈现|虚实联动,解锁数字化新范式
3d·信息可视化
BY组态22 天前
Web3D效果定制|打破平面局限,让数字场景“活”起来
平面·3d·web3