⭐CVPR2025 3D 生成新框架|Kiss3DGen 让 2D 扩散模型玩转 3D 资产生成

⭐CVPR 3D 生成新框架|Kiss3DGen 让 2D 扩散模型玩转 3D 资产生成

📄论文题目:Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation

✍️作者及机构:Jiantao Lin、Xin Yang、Meixi Chen 等(HKUST (GZ)、HKUST、广州趣丸网络技术)

🧩面临问题:当前 3D 内容生成在质量和泛化性上存在局限。一方面,优化型方法(如 DreamFusion)需密集迭代优化,推理耗时;另一方面,直接生成法(如 InstantMesh)依赖大规模 3D 数据集,但高质量 3D 数据稀缺(Objaverse-XL 约 70% 数据存在纹理缺失等问题)。此外,2D 扩散模型虽含强大 3D 先验,却多仅生成 depth/normal 等 2.5D 表示,无法支持完整 3D 生成。

🎯创新点及其具体研究方法:

1️⃣ 提出 "3D Bundle Image" 表示与 Kiss3DGen 基础框架:将 3D 物体渲染为 4 个视角的 RGB 图及对应法线图,组合为 "3D Bundle Image" 这一 2D 表示,将 3D 生成转化为 2D 图像生成任务,最大化复用预训练 2D 扩散模型知识。通过 GPT-4V 为 Bundle Image 生成描述性文本,结合 LoRA 微调 Flux 模型得到 Kiss3DGen-Base,实现文本驱动生成 Bundle Image,再经 ISOMER 重建 3D 网格。

2️⃣ 集成 ControlNet 扩展多任务能力:提出 Kiss3DGen-ControlNet,通过 ControlNet 实现 3D 增强、编辑和图像到 3D 生成。3D 增强中用 ControlNet-Tile 优化低质量网格的纹理和几何细节;3D 编辑通过调整 ControlNet 权重(λ₁=0.3、λ₂=0.5)支持属性修改;图像到 3D 则先由 InstantMesh 生成粗网格,再经增强 pipeline 优化。

3️⃣ 小数据高效训练机制:对 Objaverse 数据集精筛得到 147k 高质量 3D 物体,仅用 3 天在 8 张 A800 GPU 上完成训练;即使缩减至 50k 数据集,在文本到 3D、图像到 3D 等任务中仍保持竞争力,验证数据效率优势。





相关推荐
3DVisionary1 天前
3C电子制造质检升级:拍照式蓝光3D扫描在精密测量中的应用实践
3d·制造
gis_rc1 天前
python下shp转3dtiles
python·3d·cesium·3dtiles·数字孪生模型
晟诺数字人1 天前
数字人、AI数字人、虚拟数字人、3D数字人之间的区别于应用场景
大数据·人工智能·3d·数字人
Juicedata1 天前
3D-AIGC 存储架构演进:从 NFS、GlusterFS 到 JuiceFS
3d·架构·aigc
苏州知芯传感2 天前
成本与性能的平衡术:面向亿级市场的消费电子MEMS微振镜,其设计是如何“做减法”的?
3d·机器视觉·mems·消费电子·微振镜
zl_vslam3 天前
SLAM中的非线性优-3D图优化之地平面约束(十四)
算法·计算机视觉·平面·3d
deep_drink3 天前
【论文精读(二十二)】PointMeta:点云江湖的“兵器谱”,用元架构终结算子内卷(CVPR 2023)
深度学习·神经网络·计算机视觉·3d·point cloud
塔楼3 天前
VGGT(Visual Geometry Grounded Transformer)解析
深度学习·算法·3d
gshh__3 天前
SuperMap Hi-Fi 3D SDK for Unreal 如何实现横断面分析
3d·ue5·游戏引擎·supermap
学無芷境3 天前
Vesselformer: Towards Complete 3D Vessel Graph Generation from Images
3d