3D 生成重建004-DreamFusion and SJC ：TEXT-TO-3D USING 2D DIFFUSION

文章目录

- - [0 论文工作](#0 论文工作)
  - [1 论文方法](#1 论文方法)
  - - 1.1论文方法
    - [1.2 CFG](#1.2 CFG)
    - 1.3影响
    - [1.4 SJC](#1.4 SJC)
  - [2 效果](#2 效果)

0 论文工作

对于生成任务，我们是需要有一个数据样本，让模型去学习数据分布 p ( x ) p(x) p(x)，但是对于3d的生成来说，有两个挑战：1）一个完善的很大的3d数据数据集，对比2d的扩散模型是一个几亿的图像文本对上训练的，对于3d需要更大体量的数据；2）计算量，纯3d生成的策略相比2d计算度复杂度指数增加。所以前面的3d任务都是向办法，将3d监督转换成2d监督进行，减少数据和计算的问题。当然也有基于合成数据集做3d生成的，但是其中也存在一些其他问题。随着对比学习和transformer的进步，CLIP模型第一个比较理想的双模态大模型，打通了文本和图像之间的关系。研究者将模型引入到生成任务中去辅助3d的生成，主要路线是让不同视角的视图的相似度和文本保持一个较高的相似度Janus problem 多面的问题开始出现。

在3D mesh重建002-text2meshCVPR2022将CLIP跨圈到mesh风格的生成中已经介绍过从CLIP中提取信息的方法。

问题的根源是2d数据中虽然隐含了丰富的3d知识，但是是有偏见的，互联网用户显然更加钟爱'face'，在物体的生成中这个问题的确不明显，因为对于一般的物体不涉及正面还是反面问题。为了解决多面问题，研究者进行过很多探索，主要的解决思路还是两条，一个形状先验，借助形状的引导去环节这个问题，另外一个就是3D经验。前面的zero123,sparseFusion和HOLOdiffusion整体都是基于这个思路，后续单独整理，当然形状本身就是3d，只不过在使用形式上不同。

基于CLIP模型，stable diffusion、DALLE2 和IMAGEN这些文生图模型快速发展。相比于CLIP，扩散模型的文生图在图像和文本之间引入了更加紧密的关联，约束性更强。

论文dreamFusion最早通过蒸馏2d扩散模型中的信息进行文生3d的任务，随后SJC在前者的基础上进行了更详细的公式推导。

参考
3D mesh重建002-text2meshCVPR2022将CLIP跨圈到mesh风格的生成
 dreaamFusion
SJC

1 论文方法

1.1论文方法

对于文生3d这样一个问题，作者采用一个随机初始化的nerf来表示一个三维物体，然后将物体渲染到图像空间，对图像加噪，放入到扩散模型，预测噪声。用预测噪声减去添加噪声作为更新方向。在代码实现过程中会用到一些前后左右上下view等关键词进行约束。

上面的图是dreamfusion的整体过程。重点分析后面的实现部分。

因为一般训练好的扩散模型在使用的过程中是直接输入文本从纯噪声中逐步回复过去，在测试阶段是没有加噪这个步骤的这里为什么是预测噪声减去添加的噪声作为梯度呢。目前的理解是这样预测图像减去输入加噪的图像是梯度二者一减就变成预测噪声-加入噪声了。但是这个地方实际存在一个小小的问题就是，默认要保证nerf的图像和加噪后的图像要保持一个相同的分布，他的梯度才有效引导，但是这里的采样实际加噪是随机的，不太能保证他们的分布吧，可能还需要细看看其中的细节。(ps理解有限)

这里添加噪声，一个SJC的解释是out of distribution，OOD问题，因为nerf渲染的结果可能不满足预定分布还是什么，这个意思约等于为什么不是图像直接监 督，另外一点就是在整体的不断迭代中增加nerf的整体性，因为我们在网络中也**设置了很高的CFG去引导扩散模型生成高确定性的内容。**实际上这个部分也可考虑从得分函数的角度理解，添加噪声就是基于score matching的考量。

参考
NeRF

1.2 CFG

参考扩散模型基础，因为在条件生成中需要平衡条件和源得分之间的平衡，当这个系数比较小的时候，条件的影响力会降低，生成多样性较好，但是质量受影响。但是增加CFG生成的确定性增加，但是多样性受损。

在文生图的时候一般这个系数是0-10，但是在文生3d的时候设置成了100左右，就是让模型生成高度一致的内容，来保持一致性。但是只用这种方法很受限，所有论文也是用了基于nerf表示的很多次优化，来促进整体的一致性。

论文中使用的是这个形式的损失

但是在附录中推理他其实也是一种得分函数的形式

classifier guided diffusion

当用一个条件去限制的时候能保证我们在一个更小的区间内进行采样。里面包含一个得分项，和一个分类项，分类项需要一直跟着扩散模型进行训练，识别不同噪声状态下的图像。相关的于要训练两个扩散模型。

基于以上一些问题，有一种CFG方法讲他们合并成一个复杂的得分函数。通过系数去控制条件得分和无条件得分之间的状态。这个系数就是dreamfusion中设置为100的系数。在stable diffusion的文生图中一般设置是3-10之间。这个系数过高就是过饱和的主要原因，之所以这么设置，是作者希望在生成的一致性和过饱和之间做个平衡。
上面的两部分基本上是后面的条件生成的基础，比如GLIDE，stable diffusion和controlnet等。

1.3影响

这是一个影响力很强的论文，在讨论部分作者提出了一些未来的看法。这就是发生在差不多半年左右的事情。

1）过饱和跟CFG有关，后面的ProlificDreamer在这个基础上做了推广，一定程度缓解这个问题

2）这项将2D观测结果"提升"到3D世界的任务本质上是模糊的，并可能受益于更健壮的3D先验。实际上就是一致性的问题，后面的3dfuse ，zero123，sparseFusion，holodiffuion等等工作都围绕这一点。

3）论文在附录里面证明了这也是一种得分函数形式，SJC进一步推理验证优化部分细节。

4）提到分辨率问题，后面有magic3d跟进

5）后续从2d扩散模型去蒸馏信息进行3d任务的算法层出不穷，整体上都是受到这篇论文的启发。

1.4 SJC

虽然dreamFusion效果很好但是当时并不开源，SJC在他的基础上直接基于得分函数论证了OOD问题，为什么不直接输入渲染图像进入扩散模型去降噪，然后提出一个扰动平均得分，通过几个点的优化方向的均值作为整体方向。

2 效果

dreamfusion