【3DV 进阶-7】Hunyuan3D2.1-ShapeVAE 整体流程

bash 复制代码
┌─────────────────────────────────────────────────────────────┐
│                    训练数据准备阶段                            │
└─────────────────────────────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  原始 Mesh (OBJ/PLY/GLB)              │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  Watertight Mesh (水密网格)            │
        └───────────────────────────────────────┘
                            │
                ┌───────────┴───────────┐
                ▼                       ▼
    ┌──────────────────┐      ┌──────────────────┐
    │  surface.npz     │      │   sdf.npz        │
    │                  │      │                  │
    │ • random_surface │      │ • vol_points     │
    │ • sharp_surface  │      │ • vol_label      │
    │   (坐标+法向量)    │      │ • random_near_*  │
    │                  │      │ • sharp_near_*   │
    └──────────────────┘      └──────────────────┘
┌─────────────────────────────────────────────────────────────┐
│                    训练时数据加载                            │
└─────────────────────────────────────────────────────────────┘
                            │
                ┌───────────┴───────────┐
                ▼                       ▼
    ┌──────────────────┐      ┌──────────────────┐
    │  Surface Loader  │      │  SDF Loader      │
    │                  │      │                  │
    │ • 采样到pc_size   │      │ • 加载查询点       │
    │ • 组合成tensor    │      │ • 加载SDF标签     │
    └──────────────────┘      └──────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  Input: surface [B, N, 6]            │
        │  • B: batch size                      │
        │  • N: num_points (pc_size +           │
        │        pc_sharpedge_size)             │
        │  • 6: [x,y,z, nx,ny,nz]              │
        └───────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────┐
│                    编码器 (Encoder)                         │
└─────────────────────────────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  1. 分离坐标和法向量                  │
        │     pc [B,N,3], feats [B,N,3]        │
        └──────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  2. FPS采样查询点                     │
        │     Q [B, M', 3]                      │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  3. Fourier位置编码                    │
        │     X_p [B,N,d], X_q [B,M',d]         │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  4. Cross-Attention + Self-Attention  │
        │     H_s [B, M', d]                    │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  5. 预测潜在分布 + 采样                │
        │     Z_s [B, M', d0]                   │
        └───────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────┐
│                    解码器 (Decoder)                          │
└─────────────────────────────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  1. 投影到transformer维度              │
        │     [B, M', d]                       │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  2. Transformer自注意力层               │
        │     refined_latents [B, M', d]        │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  3. 生成3D查询网格                     │
        │     Q_g [H×W×D, 3]                   │
        └──────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  4. Cross-Attention解码                │
        │     F_g [H×W×D, d]                    │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  5. SDF预测                           │
        │     F_sdf [B, H, W, D, 1]            │
        └───────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────┐
│                    损失计算 (Loss)                          │
└─────────────────────────────────────────────────────────────┘
                            │
                ┌───────────┴───────────┐
                ▼                       ▼
    ┌──────────────────┐      ┌──────────────────┐
    │  重建损失        │       │  KL散度损失      │
    │  (MSE)           │      │  (KL Divergence) │
    │                  │      │                  │
    │ 预测SDF vs       │      │  后验 vs 先验    │
    │ 真实SDF          │      │  分布            │
    └──────────────────┘      └──────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  总损失: L_r = MSE + γ·L_KL           │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  反向传播 + 参数更新                     │
        └───────────────────────────────────────┘
相关推荐
da_vinci_x2 小时前
【游戏场景】手绘贴图“接缝”地狱?PS 智能平铺流,3步量产无缝地砖
游戏·3d·prompt·aigc·贴图·技术美术·游戏美术
gshh__4 小时前
SuperMap Hi-Fi 3D SDK for Unreal 读取矢量面进行多区域地形开挖
3d
时间之里5 小时前
【图像处理3D】:相机坐标系之间的变换
图像处理·人工智能·3d
军军君016 小时前
Three.js基础功能学习三:纹理与光照
前端·javascript·3d·前端框架·three·三维·三维框架
乐吾乐科技7 小时前
乐吾乐3D可视化2025重大更新与2026升级计划
前端·3d·信息可视化·编辑器·数据可视化
GIS数据转换器18 小时前
基于知识图谱的个性化旅游规划平台
人工智能·3d·无人机·知识图谱·旅游
爱思德学术1 天前
中国计算机学会(CCF)推荐学术会议-B(计算机图形学与多媒体):I3D 2026
3d·计算机图形学·虚拟现实
在下胡三汉1 天前
3D 文件格式解析:您需要了解的内容
3d
m0_743106461 天前
【基础回顾】针孔相机、深度、逆深度、与SfM的统一
人工智能·算法·计算机视觉·3d·几何学
HMS Core1 天前
HarmonyOS SDK携手Remy让普通手机即可完成专业级3D空间重建
3d·智能手机·harmonyos