MatAnyone: Stable Video Matting with Consistent Memory Propagation
仅依赖于输入帧的无辅助的视频抠图方法通常难以处理复杂或模糊的背景 。为了解决这个问题,我们提出了 MatAnyone,这是一个为目标分配的视频抠图量身定制的强大框架。具体来说,基于基于内存的范式,我们通过区域自适应内存融合引入了一个一致的内存传播模块 ,该模块自适应地集成来自前一帧的内存。这确保了核心区域的语义稳定性,同时保留了沿对象边界的精细细节。为了实现稳健的训练,我们提供了一个更大、高质量和多样化的视频抠图数据集 。此外,我们还采用了一种新的训练策略,可以有效地利用大规模分割数据,提高抠图稳定性。借助这种新的网络设计、数据集和训练策略,MatAnyone 可在各种真实场景中提供强大而准确的视频抠图结果,其性能优于现有方法。
SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration
视频修复在保持保真度的同时,从未知退化中恢复时间一致的细节 方面提出了不小的挑战。尽管最近在基于扩散的恢复方面取得了进展,但这些方法经常面临生成能力和采样效率的限制。在这项工作中,我们介绍了 SeedVR,这是一种扩散变压器,旨在处理具有任意长度和分辨率的真实世界视频恢复。SeedVR 的核心设计在于窗口注意力的转移,这有助于对长视频序列进行有效恢复。SeedVR 进一步支持空间和时间维度边界附近的可变大小窗口,克服了传统窗口注意力的分辨率限制。SeedVR 配备了现代实践,包括因果视频自动编码器、混合图像和视频训练以及渐进式训练,在合成和真实世界基准测试以及 AI 生成的视频上都实现了极具竞争力的性能。广泛的实验表明,SeedVR 优于现有的通用视频恢复方法。
Arbitrary-steps Image Super-resolution via Diffusion Inversion
本研究提出了一种基于扩散反转的新图像超分辨率 (SR) 技术,旨在利用封装在大型预训练扩散模型中的丰富图像先验来提高 SR 性能 。我们设计了一个 Partial noise Prediction 策略来构建扩散模型的中间状态 ,作为起始采样点。我们方法的核心是一个深度噪声预测器,用于估计前向扩散过程的最佳噪声图。训练后,此噪声预测器可用于沿扩散轨迹部分初始化采样过程,从而生成所需的高分辨率结果。与现有方法相比,我们的方法提供了一种灵活高效的采样机制,支持任意数量的采样步骤,范围从 1 到 5。即使只有一个采样步骤,我们的方法也显示出优于或与最近最先进的方法相当的性能。代码和模型在此 https URL 上公开提供。
3DEnhancer: Consistent Multi-View Diffusion for 3D Enhancement
尽管神经渲染取得了进步,但由于高质量 3D 数据集的稀缺和多视图扩散模型的固有局限性,视图合成和 3D 模型生成仅限于低分辨率,多视图一致性不理想。在这项研究中,我们提出了一种名为 3DEnhancer 的新型 3D 增强管道,它采用多视图潜在扩散模型来增强粗略的 3D 输入,同时保持多视图的一致性。我们的方法包括一个姿势感知编码器和一个基于扩散的降噪器,用于优化低质量的多视图图像,以及数据增强和具有外极聚合的多视图注意力模块,以保持跨视图一致、高质量的 3D 输出。与现有的基于视频的方法不同,我们的模型支持无缝的多视图增强,并提高了不同视角的连贯性。广泛的评估表明,3DEnhancer 的性能明显优于现有方法,促进了多视图增强和每个实例的 3D 优化任务。
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE
自回归模型在各个领域都取得了显著的成功,从大型语言模型 (LLMs) 到大型多模态模型 (LMM) 和 2D 内容生成,越来越接近通用人工智能 (AGI)。尽管取得了这些进步,但将自回归方法应用于 3D 对象生成和理解在很大程度上仍未得到探索。本文介绍了尺度自回归 3D (SAR3D),这是一个新颖的框架,它利用多尺度 3D 矢量量化变分自动编码器 (VQVAE) 来标记 3D 对象,以实现高效的自回归生成和详细理解。SAR3D 通过预测多尺度潜在表示中的下一个尺度,而不是下一个单一标记,显著缩短了生成时间,在 A6000 GPU 上仅需 0.82 秒即可实现快速 3D 对象生成。此外,鉴于这些词元富含分层 3D 感知信息,我们对它们进行了微调LLM,从而实现了对 3D 内容的多模态理解。我们的实验表明,SAR3D 在速度和质量上都超过了当前的 3D 生成方法,并且可以LLMs全面解释和说明 3D 模型。
WildAvatar: Web-scale In-the-wild Video Dataset for 3D Avatar Creation
用于创建头像的现有人类数据集通常仅限于实验室环境,其中可以理想地提供高质量的注释(例如,来自 3D 扫描或多视图图像的 SMPL 估计)。然而,它们的注释要求对于现实世界的图像或视频来说是不切实际的,这给当前头像创建方法的实际应用带来了挑战。为此,我们提出了 WildAvatar 数据集,这是一个从 YouTube 中提取的 Web 规模的野外人类头像创建数据集,具有不同 10,000+ 的人类主体和场景。WildAvatar 至少 10× 比以前的 3D 人类头像创建数据集更丰富。我们在数据集上评估了几种最先进的头像创建方法,强调了头像创建的实际应用中尚未探索的挑战。我们还展示了当大规模提供数据时,头像创建方法的泛化潜力。我们公开发布数据源链接和注释,以推动 3D 人类头像创建和其他相关领域的实际应用。
Generative Gaussian Splatting for Unbounded 3D City Generation
使用基于 NeRF 的方法进行 3D 城市生成显示出有希望的生成结果,但计算效率低下。最近,3D 高斯飞溅 (3D-GS) 已成为对象级 3D 生成的高效替代方案。然而,将 3D-GS 从有限尺度的 3D 对象和人类适应无限尺度的 3D 城市并非易事。无界 3D 城市生成会带来大量的存储开销(内存不足问题),这是由于需要将点扩展到数十亿个,通常需要数百 GB 的 VRAM 才能实现面积为10 平方千米的城市场景。在本文中,我们提出了 GaussianCity,这是一个生成式 Gaussian Splatting 框架,致力于通过单个前馈通道有效地合成无界 3D 城市。我们的主要见解有两个方面:1) 紧凑的 3D 场景表示:我们引入了 BEV-Point 作为高度紧凑的中间表示,确保无界场景的 VRAM 使用量的增长保持不变,从而实现无界城市生成。2) 空间感知高斯属性解码器:我们提出了空间感知 BEV-Point 解码器来生成 3D 高斯属性,它利用点序列化器来集成 BEV 点的结构和上下文特征。大量实验表明,GaussianCity 在无人机视图和街景 3D 城市生成方面都取得了最先进的结果。值得注意的是,与 CityDreamer 相比,GaussianCity 表现出卓越的性能,加速提高了 60 倍(10.72 FPS 对 0.18 FPS)。
3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion
各行各业对高质量 3D 资产的需求不断增长,这需要高效和自动化的 3D 内容创建。尽管 3D 生成模型最近取得了进展,但现有方法仍面临优化速度、几何保真度以及缺乏基于物理的渲染 (PBR) 资产方面的挑战。在本文中,我们介绍了 3DTopia-XL,这是一种可扩展的原生 3D 生成模型,旨在克服这些限制。3DTopia-XL 利用一种新颖的基于基元的 3D 表示 PrimX,它将详细的形状、反照率和材料场编码为紧凑的张量格式,从而有助于使用 PBR 资产对高分辨率几何体进行建模。除了新颖的表示之外,我们还提出了一个基于 Diffusion Transformer (DiT) 的生成框架,其中包括 1) 原始补丁压缩,2) 和潜在原始扩散。3DTopia-XL 学习从文本或视觉输入生成高质量的 3D 资产。我们进行了广泛的定性和定量实验,以证明 3DTopia-XL 在生成具有细粒度纹理和材料的高质量 3D 资产方面明显优于现有方法,有效地弥合了生成模型与实际应用程序之间的质量差距。