【3DV 进阶-7】Hunyuan3D2.1-ShapeVAE 整体流程

bash 复制代码
┌─────────────────────────────────────────────────────────────┐
│                    训练数据准备阶段                            │
└─────────────────────────────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  原始 Mesh (OBJ/PLY/GLB)              │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  Watertight Mesh (水密网格)            │
        └───────────────────────────────────────┘
                            │
                ┌───────────┴───────────┐
                ▼                       ▼
    ┌──────────────────┐      ┌──────────────────┐
    │  surface.npz     │      │   sdf.npz        │
    │                  │      │                  │
    │ • random_surface │      │ • vol_points     │
    │ • sharp_surface  │      │ • vol_label      │
    │   (坐标+法向量)    │      │ • random_near_*  │
    │                  │      │ • sharp_near_*   │
    └──────────────────┘      └──────────────────┘
┌─────────────────────────────────────────────────────────────┐
│                    训练时数据加载                            │
└─────────────────────────────────────────────────────────────┘
                            │
                ┌───────────┴───────────┐
                ▼                       ▼
    ┌──────────────────┐      ┌──────────────────┐
    │  Surface Loader  │      │  SDF Loader      │
    │                  │      │                  │
    │ • 采样到pc_size   │      │ • 加载查询点       │
    │ • 组合成tensor    │      │ • 加载SDF标签     │
    └──────────────────┘      └──────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  Input: surface [B, N, 6]            │
        │  • B: batch size                      │
        │  • N: num_points (pc_size +           │
        │        pc_sharpedge_size)             │
        │  • 6: [x,y,z, nx,ny,nz]              │
        └───────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────┐
│                    编码器 (Encoder)                         │
└─────────────────────────────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  1. 分离坐标和法向量                  │
        │     pc [B,N,3], feats [B,N,3]        │
        └──────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  2. FPS采样查询点                     │
        │     Q [B, M', 3]                      │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  3. Fourier位置编码                    │
        │     X_p [B,N,d], X_q [B,M',d]         │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  4. Cross-Attention + Self-Attention  │
        │     H_s [B, M', d]                    │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  5. 预测潜在分布 + 采样                │
        │     Z_s [B, M', d0]                   │
        └───────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────┐
│                    解码器 (Decoder)                          │
└─────────────────────────────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  1. 投影到transformer维度              │
        │     [B, M', d]                       │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  2. Transformer自注意力层               │
        │     refined_latents [B, M', d]        │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  3. 生成3D查询网格                     │
        │     Q_g [H×W×D, 3]                   │
        └──────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  4. Cross-Attention解码                │
        │     F_g [H×W×D, d]                    │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  5. SDF预测                           │
        │     F_sdf [B, H, W, D, 1]            │
        └───────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────┐
│                    损失计算 (Loss)                          │
└─────────────────────────────────────────────────────────────┘
                            │
                ┌───────────┴───────────┐
                ▼                       ▼
    ┌──────────────────┐      ┌──────────────────┐
    │  重建损失        │       │  KL散度损失      │
    │  (MSE)           │      │  (KL Divergence) │
    │                  │      │                  │
    │ 预测SDF vs       │      │  后验 vs 先验    │
    │ 真实SDF          │      │  分布            │
    └──────────────────┘      └──────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  总损失: L_r = MSE + γ·L_KL           │
        └───────────────────────────────────────┘
                            │
                            ▼
        ┌───────────────────────────────────────┐
        │  反向传播 + 参数更新                     │
        └───────────────────────────────────────┘
相关推荐
syncon122 天前
手机内藏式触控高分子分散液晶结构的光学复合结构及液晶线路激光修复原理
科技·3d·制造
动恰客流管家2 天前
动恰3DV3丨 数据修正,破解客流失真断层,精准还原真实客流
大数据·人工智能·3d·性能优化
哈__2 天前
ReactNative项目OpenHarmony三方库集成实战:react-native-amap3d(推荐使用react-native-maps)
react native·react.js·3d
山科智能信息处理实验室3 天前
RENO:面向 3D LiDAR 点云的实时神经压缩
人工智能·3d
Yao.Li3 天前
基于 BOP 格式构建 PVN3D 自定义训练数据集技术文档
3d
sin°θ_陈3 天前
前馈式3D Gaussian Splatting 研究地图(路线三):大重建模型如何进入 3DGS——GRM、GS-LRM 与 Long-LRM 的方法转向
3d·aigc·gpu算力·三维重建·空间计算·3dgs·空间智能
sin°θ_陈3 天前
前馈式3D Gaussian Splatting 研究地图(路线二):几何优先的前馈式 3DGS——前馈式 3DGS 如何重新拥抱多视图几何
深度学习·3d·webgl·三维重建·空间计算·3dgs·空间智能
阿酷tony3 天前
Nano Banna 提示词:创意超逼真的3D商业风格产品图
人工智能·3d·gemini·图片生成
智算菩萨3 天前
【OpenGL】10 完整游戏开发实战:基于OpenGL的2D/3D游戏框架、物理引擎集成与AI辅助编程指南
人工智能·python·游戏·3d·矩阵·pygame·opengl
Jackson_GJH4 天前
3D 建模入坑指南:NURBS 与 Polygon 有什么区别?CAD 与 DCC 怎么选?
3d