【3DV 进阶-7】Hunyuan3D2.1-ShapeVAE 整体流程

bash 复制代码
┌─────────────────────────────────────────────────────────────┐
│                    训练数据准备阶段                            │
└─────────────────────────────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  原始 Mesh (OBJ/PLY/GLB)              │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  Watertight Mesh (水密网格)            │
        └───────────────────────────────────────┘
                            │
                ┌───────────┴───────────┐
                ▼                       ▼
    ┌──────────────────┐      ┌──────────────────┐
    │  surface.npz     │      │   sdf.npz        │
    │                  │      │                  │
    │ • random_surface │      │ • vol_points     │
    │ • sharp_surface  │      │ • vol_label      │
    │   (坐标+法向量)    │      │ • random_near_*  │
    │                  │      │ • sharp_near_*   │
    └──────────────────┘      └──────────────────┘
┌─────────────────────────────────────────────────────────────┐
│                    训练时数据加载                            │
└─────────────────────────────────────────────────────────────┘
                            │
                ┌───────────┴───────────┐
                ▼                       ▼
    ┌──────────────────┐      ┌──────────────────┐
    │  Surface Loader  │      │  SDF Loader      │
    │                  │      │                  │
    │ • 采样到pc_size   │      │ • 加载查询点       │
    │ • 组合成tensor    │      │ • 加载SDF标签     │
    └──────────────────┘      └──────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  Input: surface [B, N, 6]            │
        │  • B: batch size                      │
        │  • N: num_points (pc_size +           │
        │        pc_sharpedge_size)             │
        │  • 6: [x,y,z, nx,ny,nz]              │
        └───────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────┐
│                    编码器 (Encoder)                         │
└─────────────────────────────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  1. 分离坐标和法向量                  │
        │     pc [B,N,3], feats [B,N,3]        │
        └──────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  2. FPS采样查询点                     │
        │     Q [B, M', 3]                      │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  3. Fourier位置编码                    │
        │     X_p [B,N,d], X_q [B,M',d]         │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  4. Cross-Attention + Self-Attention  │
        │     H_s [B, M', d]                    │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  5. 预测潜在分布 + 采样                │
        │     Z_s [B, M', d0]                   │
        └───────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────┐
│                    解码器 (Decoder)                          │
└─────────────────────────────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  1. 投影到transformer维度              │
        │     [B, M', d]                       │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  2. Transformer自注意力层               │
        │     refined_latents [B, M', d]        │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  3. 生成3D查询网格                     │
        │     Q_g [H×W×D, 3]                   │
        └──────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  4. Cross-Attention解码                │
        │     F_g [H×W×D, d]                    │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  5. SDF预测                           │
        │     F_sdf [B, H, W, D, 1]            │
        └───────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────┐
│                    损失计算 (Loss)                          │
└─────────────────────────────────────────────────────────────┘
                            │
                ┌───────────┴───────────┐
                ▼                       ▼
    ┌──────────────────┐      ┌──────────────────┐
    │  重建损失        │       │  KL散度损失      │
    │  (MSE)           │      │  (KL Divergence) │
    │                  │      │                  │
    │ 预测SDF vs       │      │  后验 vs 先验    │
    │ 真实SDF          │      │  分布            │
    └──────────────────┘      └──────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  总损失: L_r = MSE + γ·L_KL           │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  反向传播 + 参数更新                     │
        └───────────────────────────────────────┘
相关推荐
探物 AI4 天前
【3D·感知】从PointNet到PointPillars:如何让自动驾驶汽车“实时“看见3D世界?
3d·自动驾驶·汽车
苏州邦恩精密4 天前
GOM三维扫描在制造中的真实价值:让“修模”从经验动作变成数据动作
人工智能·科技·机器学习·3d·自动化·制造
YHHLAI4 天前
CSS 3D 硬核解析:四个属性手写旋转立方体
前端·css·3d
云飞云共享云桌面4 天前
传统工作站 vs 云飞云共享云桌面:制造业设计云桌面选型深度对比
运维·服务器·前端·网络·3d·架构·制造
LONGZETECH4 天前
无人机仿真教学软件选型实战:5 个硬核技术维度,避开实训建设踩坑
3d·无人机·交互·cocos2d
装不满的克莱因瓶4 天前
了解3D卷积原理——从空间感知到时空建模的深度学习核心算子
人工智能·pytorch·python·深度学习·机器学习·3d·ai
雪的季节4 天前
Qt Graphs 2D+3D介绍
qt·3d
CG_MAGIC5 天前
3ds Max材质编辑器:精简模式与Slate模式对比
3d·编辑器·材质·贴图·uv·建模教程
装不满的克莱因瓶5 天前
掌握3D CNN模型结构——从时空特征建模到视频理解与医学影像核心架构
人工智能·pytorch·python·深度学习·神经网络·3d·cnn
AniShort5 天前
AniShort携3D世界+3D导演台王炸组合AI短剧协作平台亮相2026横店AI短剧大会 近亿元融资赋能短剧工业化
人工智能·microsoft·3d