CV每日论文--2024.6.4

1、Mixed Diffusion for 3D Indoor Scene Synthesis

中文 标题:用于 3D 室内场景合成的混合扩散

简介:这篇论文提出了一种名为MiDiffusion的混合离散-连续扩散模型,用于从给定的房间类型、平面图和可能存在的物体中合成逼真的3D室内场景。

作者指出,该方法在混合离散语义和连续几何领域实现了结构化损坏,为反向去噪步骤提供了更好的条件。在3D-FRONT数据集上的实验结果显示,MiDiffusion在地板条件下的3D场景合成方面明显优于现有的自回归和扩散模型。

此外,该模型可以通过损坏和遮盖策略处理部分对象约束,无需特定任务的训练。作者还展示了MiDiffusion在场景完成和家具布置实验中相对于现有方法的明显优势。

总的来说,MiDiffusion在混合离散-连续表示以及处理部分对象约束等方面展现了强大的性能,为3D室内场景合成带来了新的解决方案。

2、Unified Directly Denoising for Both Variance Preserving and Variance Exploding Diffusion Models

中文标题:方差保持和方差爆炸扩散模型的统一直接去噪

简介:这篇论文提出了一种统一的直接去噪扩散模型(uDDDM)框架,可以在方差保持(VP)和方差爆炸(VE)两种情况下实现高质量的一步/多步图像生成。

研究指出,之前的DDDM模型使用的伪LPIPS损失函数存在评估偏差的问题。为此,作者提出了自适应Pseudo-Huber损失函数,以平衡收敛到真实解和收敛过程的稳定性。同时,作者还给出了模型解路径存在和唯一性的理论证明,以及采样路径的不相交性质。

通过全面评估,研究证明uDDDM在VP和VE两种情况下均能实现与CIFAR-10最佳表现方法相当的FID得分。在CIFAR10数据集上,uDDDM的一步生成FID分别为2.63和2.53,通过将采样扩展到1000步,FID分数进一步降至1.71和1.65,达到了最先进的性能水平。

总的来说,uDDDM框架为直接去噪扩散模型提供了一种统一的解决方案,在图像生成质量和采样效率方面都取得了显著的性能提升。

3、Spectrum-Aware Parameter Efficient Fine-Tuning for Diffusion Models

中文标题:扩散模型的频谱感知参数高效微调

简介:这篇论文提出了一种新颖的面向频谱的生成模型适应框架,旨在以参数高效的方式将大规模预训练生成模型适应于特定任务。

传统的低秩适应方法通过施加约束来实现参数效率,但对于需要高表示能力的任务可能并不是最优的。作者提出了一种称为谱正交分解适应(SODA)的方法,通过调整预训练权重的奇异值和它们的基向量来实现参数高效的适应。使用Kronecker乘积和高效的Stiefel优化器,SODA能够实现正交矩阵的参数高效适应,在平衡计算效率和表示能力方面表现出色。

通过在文本到图像扩散模型上的广泛评估,研究证明了SODA的有效性,为现有微调方法提供了一种面向频谱的替代方案。该方法为如何以参数高效的方式将大规模预训练生成模型适应于特定任务提供了新的思路和解决方案。

相关推荐
Tony Bai几秒前
AI 编码胜率榜:Go 与 Rust 完胜 C++
人工智能
数字时代全景窗几秒前
从OpenClaw、Palantir、SpaceX,看颠覆式创新的四个层次(5)传统财务模型的局限
大数据·人工智能·架构·软件工程
code_pgf几秒前
sVLM在资源受限环境中的应用案例
人工智能·深度学习·架构
灰灰勇闯IT1 分钟前
ops-math 的 ReduceSum:Tensor 归约为什么是计算热点
深度学习
多年小白2 分钟前
复盘】2026年5月21日(周四)
大数据·人工智能·ai·金融·区块链
南屹川2 分钟前
【并发编程】Python异步编程实战:从协程到异步框架
人工智能
BU摆烂会噶3 分钟前
【LangGraph】House_Agent 实战(四):预定流程 —— 中断与人工干预
android·人工智能·python·langchain
AI技术控3 分钟前
LangChain 是什么?从零开始学会 LangChain 的工程实践指南
人工智能·语言模型·自然语言处理·langchain·nlp
陈天伟教授4 分钟前
图解人工智能(32)深度学习前沿
人工智能·深度学习
RSTJ_16255 分钟前
PYTHON+AI LLM DAY FIFITY-TWO
人工智能