【HaMeR】全Transformer架构的单目3D手部网格重建:ViT-H骨干+跨注意力MANO解码器源码深度解析HaMeR(Hand Mesh Recovery)是 UC Berkeley 提出的全 Transformer 架构单目 3D 手部重建方法,采用 ViT-Huge(32层、1280维、16头)作为视觉骨干,配合 6 层跨注意力 Transformer 解码器直接回归 MANO 参数模型的手部姿态(6D旋转表示)、形状(10维 β\betaβ)和相机参数。结合对抗训练与多数据集混合策略,HaMeR 在 FreiHAND、HO-3D 等主流基准上显著超越现有方法,并在 Ego-Exo4D Challenge