[23] IPDreamer: Appearance-Controllable 3D Object Generation with Image Prompts

zzl_19982023-10-15 19:03

Text-to-3D任务中，对3D模型外观的控制不强，本文提出IPDreamer来解决该问题。
在NeRF Training阶段，IPDreamer根据文本用ControlNet生成参考图，并将参考图作为Zero 1-to-3的控制条件，用基于Zero 1-to-3的SDS损失生成粗NeRF。
在Mesh Training阶段，IPDreamer将NeRF用DMTet转换为3D Mesh，并分别优化Mesh的几何与纹理。1）用参考图的法向图编码作为控制信号，用IPSD (Image Prompt Score Distillation) 优化3D Mesh的几何；2）用渲染rgb图像编码（和法向图差异）作为控制信号，用IPSD优化3D Mesh的纹理。
将Text-to-3D任务，转换为单图重建任务，实现了更好的外观控制。

目录

[NeRF Training](#NeRF Training)

[Mesh Training](#Mesh Training)

[Some Results](#Some Results)

[编辑Comparison with SOTA Text-to-3D Methods](#编辑Comparison with SOTA Text-to-3D Methods)

Method

NeRF Training

Image Generation. 给定文本描述和控制条件，本文用ControlNet生成参考图片。
Training of the Coarse NeRF Model. 给定参考图片，本文用基于Zero 1-to-3的SDS损失生成粗NeRF。

Mesh Training

Mesh Extraction. 给定粗NeRF，本文用DMTet将其转换为3D Mesh。3D Mesh由顶点V和四面体T（tetrahedrons）组成。每个顶点包含一个signed distance field (SDF) 值和形变值组成。描述了相较于初始正则坐标的变换。本文基于IPSD优化。
Geometry Optimization. Fantasia3D和ProlificDreamer用SDS优化3D Mesh的法向图，实现几何优化。但常用扩散模型缺少法向图的训练数据，导致几何优化效果不佳。为解决该问题，本文引入法向图编码，其中是IP-Adapter的denosing model。IPSD几何损失表达如下：

Texture Optimization. 首先，提取参考图像编码。其次，计算渲染角度和参考角度的法向图编码，并计算差值得到。这一步的目的是希望用来表征任意渲染角度图像的图像编码。IPSD纹理损失表达如下：

Experiments

Some Results

Comparison with SOTA Text-to-3D Methods

上一篇：react antd table表格点击一行选中数据的方法

下一篇：Halcon 2D-Transformation 相关算子(一)

热门推荐

01GitHub 镜像站点 02Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 03使用 1panel面板部署 php网站 04Vue-skills的中文文档 05OpenClaw Chrome扩展使用教程 - 浏览器中继控制 06让 Trae IDE 智能体 “读懂”文档 Excel+PDF+DOCX ：mcp-documents-reader 工具使用指南 07从零搭建一个 PHP 登录注册系统（含完整源码）08UV安装并设置国内源 09Linux下V2Ray安装配置指南 10一文了解国产算子编程语言 TileLang，TileLang 对国产开源生态的影响与启示