全流程开源!高德3D贴图生成系统,白模一键生成真实感纹理贴图

导读

MVPainter

随着3D生成从几何建模迈向真实感还原,贴图质量正逐渐成为决定3D资产视觉表现的核心因素。我们团队自研的MVPainter系统,作为业内首个全流程开源的3D贴图生成方案,仅需一张参考图与任意白模,即可自动生成对齐精确、细节丰富、具备PBR属性的高质量贴图,全面提升3D内容生产效率与真实感表现,助力构建标准化、智能化的三维视觉基座。

在MVPainter中,我们围绕3D贴图生成中的三大核心挑战进行了系统攻关:一是如何保持贴图与参考图在风格与结构上的高度一致,避免偏色、风格漂移等问题;二是如何实现纹理与复杂几何表面的精准对齐,解决传统投影方式带来的失真与遮挡难题;三是如何生成具备高频细节的物理属性贴图,确保最终结果真实自然。我们从数据构建、模型设计到评测体系三个层面协同优化,全面提升了贴图生成的可控性与实用性,为3D内容生产奠定坚实技术基础。

Introduction

随着生成式人工智能的发展,3D内容生成正从几何建模阶段迈向更高层次的真实感还原。在当前主流的单视图3D生成范式中,通常将任务划分为"先几何、后贴图"的两阶段流程:先重建物体的几何形状,再基于参考图生成覆盖表面的纹理贴图。尽管近年来几何建模已取得显著进展,并涌现出如Tripo、Hunyuan3D、TRELLIS、Hi3DGen等多个开源方案,但3D贴图生成仍缺乏系统性的研究与高质量的开源工具链,已逐渐成为制约3D生成质量与落地效率的关键瓶颈。

我们将3D贴图生成任务的本质问题归纳为三大核心挑战:(1)与参考图的保真度------生成贴图需忠实还原参考图中的材质风格与结构信息;(2)与几何的对齐程度------贴图内容应与3D模型表面准确匹配,避免纹理错位、拉伸等现象;(3)贴图的细节丰富度------生成纹理需具备丰富的高频细节,避免模糊纹理等情况。为系统性应对上述挑战,我们提出了MVPainter,并从数据、模型和评测三个维度进行了全面设计与优化。

  • 高质量数据构建与筛选流程:我们提出了一套自动化的数据筛选与增强Pipeline,针对公开3D数据中普遍存在的纹理缺失、光照,视角单一等问题,设计了贴图质量过滤、光照,视角增强等模块,用于构建一个高质量的多视角贴图训练集。

  • 多视角扩散贴图生成器:在Diffusion架构下引入法线、深度等多模态条件,融合ControlNet结构,实现从单张参考图出发,合成全视角贴图图像,保留风格同时精准对齐几何;为进一步提升结果的物理一致性与细节保真度,我们在生成图像的基础上,联合训练了PBR属性提取器,用于从多视角图像中提取BaseColor、Roughness、Metallic等物理属性贴图。

  • 人类对齐的评测系统:我们构建了业内首个结合VLM大模型的贴图质量评测框架,支持ELO分数、局部对比、人类偏好等多维评估,有效刻画视觉一致性与细节还原度。

MVPainter能够在多个主流几何生成方法(如Tripo、Hunyuan3D、TRELLIS、Hi3dGen)下均表现出优异的贴图生成能力,显著优于现有开源方案。总体而言,MVPainter不仅提供了一套完整、可控、可复现的贴图生成方案,也为推动3D生成从几何建模迈向真实感表达提供了坚实支撑。

Approach


现有3D贴图数据普遍存在纹理过于简单、纹理缺失、以及部分物体结构混乱、无明确语义等问题,直接影响模型对高质量纹理模式的学习。为此,我们设计了一套自动化的数据筛选与增强流程,涵盖以下关键模块:

  • 纹理质量筛选:对贴图图像行颜色信息熵以及梯度检测,筛选出颜色多样、局部纹理细节丰富的物体;

  • 语义有效性筛查:使用VLM模型低语义价值或结构随机的几何体;

  • 视角增强:通过旋转相机参数生成补充视角,构建多视角纹理对齐监督信号;

  • 光照增强:引入基于环境贴图的简单光照模拟,用于提升模型对光照变化的鲁棒性。

最终,我们筛选并构建了一个覆盖范围广、细节丰富、风格多样的高质量训练集,作为MVPainter多阶段训练的重要基础,有效解决了目前3D贴图生成任务中与参考图的保真度以及贴图的细节丰富度两个核心问题。

为实现生成贴图与三维几何之间的精确对齐,我们使用如下图所示的 Union ControlNet 架构引入了两类具有互补特性的几何先验作为几何控制输入:法线图(normal map)和深度图(depth map)。法线图能够提供非常细粒度的局部几何细节信息,有助于精确控制纹理在微观结构上的生成表现;而深度图则提供较为全局的空间尺度与轮廓信息,具备一定的模糊性与冗余度,能够抑制网络过度依赖法线图中某些噪声细节或纹理伪结构,从而在稳定性的提升和泛化能力方面起到关键作用。

现有的 diffusion 模型通常在大规模图像数据上进行预训练,而这些数据在视角分布上高度集中于物体的正面。这种bias导致模型在生成非正面视角(如背面、侧面或顶部)图像时,常常出现细节模糊、几何错位或外观不一致等现象。为解决这个问题,我们提出了一套逐步递进的三阶段训练策略,使模型能够从整体分布建模到几何控制再到细节精调,逐步提升在非正面视角下的表现。
阶段一:UNet预训练(无几何控制)

在该阶段,我们仅训练扩散模型中的 UNet 主体,不引入任何几何控制信号,目标是让模型初步学习六个目标视角下的图像分布,建立跨视角的基本生成能力。

阶段二:ControlNet几何控制训练

在 UNet 训练完成后,我们引入 ControlNet 模块,并固定 UNet 权重。该阶段的目标是让模型掌握几何控制能力,能够根据不同的几何输入引导出结构一致的贴图,解决由于缺乏结构感知带来的变形、错位等问题。

阶段三:高质量数据微调

同时使用经过筛选的高质量训练数据对整个模型进行联合微调。这些数据具有更高的纹理复杂度、更准确的几何匹配和更丰富的细节表现,有助于模型在各个视角下都能生成高保真、细节丰富的图像。

在许多对真实感要求较高的应用场景中,仅生成 RGB 纹理图像是不够的。现代图形渲染系统通常采用 基于物理渲染(Physically-Based Rendering, PBR) 的方式来模拟光与物体表面之间的交互,这需要物体具有完整的pbr物理属性贴图。为满足上述需求,我们生成的六视角 RGB 图像基础上,单独引入了一个 PBR attributes extractor。

我们基于已有的 PBR 预测模型 IDRARb 进行了两方面的改进:首先,在注意力机制上,我们将原模型中的 视角注意力(view attention)、属性通道注意力(component attention) 和 图像注意力(image attention) 由串行结构改为并行结构,使得模型能够在相同的层级上同时感知不同domain的信息,从而更高效地整合特征。其次,我们将训练分辨率从 256×256 提升至 512×512,显著增强了模型在 basecolor 图中的细节表达能力。

Experiments


现有的3D贴图质量评估通常采用如PSNR(峰值信噪比)和LPIPS(学习感知图像相似性度量)类的指标,其依赖于与真值的比较。然而,由于亮度、饱和度等因素的差异,这些指标容易产生失真,不能准确反映生成贴图的质量。为了克服这一问题,我们提出了一个基于VLM(视觉语言模型)的Human-Aligned评测系统。该系统围绕3D贴图生成的三个核心维度(即外观保真度、几何对齐性和纹理丰富度)设计了相应的VLM提示(prompt),使得VLM能够分别评估对应维度贴图质量。我们根据VLM的比较结果,进一步地计算每个方法的elo分数作为它们的最终评价指标。我们在这个与人类对齐的评测系统上评估了MVPainter以及其他的开源贴图生成工作。
定量指标对比:

可视化结果:

pbr生成效果:

Conclusion

本文介绍了一个完整且开源的3D贴图生成系统MVPainter,我们从数据、模型与评测三个层面进行系统性设计,解决了当前3D贴图生成中长期存在的参考图保真度低、几何对齐困难与纹理细节缺失等核心挑战。实验结果表明,MVPainter在多个公开几何建模方法下均实现了领先的贴图生成效果,展现出良好的泛化能力和可扩展性。作为一套全流程开源的系统,MVPainter不仅为学术研究提供了完整工具链,也为产业级3D内容自动化生产提供了可靠支撑。未来,我们计划在自由视角生成、以及实时推理效率优化等方向持续迭代,并探索更通用的风格迁移与物体适配能力。

**论文链接:**https://arxiv.org/pdf/2505.12635

项目主页: https://amap-cvlab.github.io/MV-Painter/

高德视觉技术中心

高德视觉技术中心始终站在计算机视觉研究与应用的创新高地,是高德空间智能互联网领域重要的技术实践者。
视觉技术团队坐落在现实与数字世界的交汇点,用AI赋能智慧出行和日常生活。作为业界领航者,团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。

✓ **下一代三维地图引擎:**3D生成算法/3DGS&NeRF/大规模场景重建

✓ **多模态大模型:**LLM/MLLM/VLM的pre train和post train,并全面落地地图场景

✓ **空间智能:**VLN&VLA/World Model/Physical AI,探索地图出行新边界

AI工程化体系: 模型轻量化/边缘计算/跨平台部署,构建移动端的生成式AI

加入高德视觉技术中心,用代码重构世界,定义空间智能新法则!

简历请发送至[email protected]

期待你的加入!

相关推荐
子燕若水8 小时前
daz3d + PBRSkin (MDL)+ SSS
3d
Tiger Z9 小时前
R 语言科研绘图第 55 期 --- 网络图-聚类
开发语言·r语言·贴图
灏瀚星空11 小时前
Python数学可视化:3D参数曲面与隐式曲面绘制技术
开发语言·python·3d
daifgFuture2 天前
Android 3D球形水平圆形旋转,旋转动态更换图片
android·3d
牧子川2 天前
【论文解读】CVPR2023 PoseFormerV2:3D人体姿态估计(附论文地址)
3d·cvpr2023·poseformerv2
资深设备全生命周期管理2 天前
优化版本,增加3D 视觉 查看前面的记录
3d
qq_589568102 天前
threejsPBR材质与纹理贴图
three.js·材质·贴图
m0_748250743 天前
GPUCUDA 发展编年史:从 3D 渲染到 AI 大模型时代(上)
人工智能·3d
少林6593 天前
谷歌地图高清卫星地图2026中文版下载|谷歌地图3D卫星高清版 V7.3.6.9796 最新免费版下载 - 前端工具导航
3d·谷歌地图