零样本、免训练!SAM-Body4D 来了:实现视频级 4D 人体网格重建,复杂遮挡也能稳如泰山
导读
在计算机视觉领域,从单目视频中恢复三维人体姿态和形状(Human Mesh Recovery, HMR)一直是一项极具挑战性的任务。尽管现有的图像级模型(如 SAM 3D Body)表现强劲,但在处理视频时,往往会因为逐帧预测导致"跳变"不稳定,或者在遭遇遮挡时"丢人"。
近日,来自谢菲尔德大学等机构的研究团队开源了 SAM-Body4D 。这是一个无需额外训练 (Training-Free)的框架,通过巧妙结合 SAM 系列模型,实现了时间连续、遮挡鲁棒的 4D 人体网格恢复。

1. 算法的核心亮点
传统的视频 HMR 往往需要大规模的标注数据进行时序建模,或者依赖复杂的优化算法。SAM-Body4D 另辟蹊径,其核心优势在于:
- 零样本/无需训练: 直接利用预训练模型的强大泛化能力,无需针对特定数据集进行微调。
- 时序一致性: 解决了视频重建中常见的"闪烁"和关节抖动问题,生成的 4D 轨迹平滑自然。
- 抗遮挡性: 引入了遮挡感知细化模块,即便人体被障碍物部分遮挡,也能补全缺失的几何信息。
- 高效扩展: 支持并行推理,可同时处理多个目标人物。
2. SAM-Body4D 是如何工作的?
SAM-Body4D 的工作流程可以概括为三个核心组件的有机结合:
A. 掩码序列生成器 (Masklet Generator)
该模块利用可提示的视频分割模型(如 SAM 2/3),通过像素级的连续性来跟踪目标人物。它能够跨帧保持身份一致性,为后续的 3D 重建提供可靠的时空线索。
B. 遮挡感知细化器 (Occlusion-Aware Masklet Refiner)
这是该框架的"点睛之笔"。当人体被遮挡时,普通的分割会产生空洞。SAM-Body4D 利用 Diffusion-VAS 模型对掩码进行修复,补全被遮挡的肢体,确保下游 HMR 模块获得完整的视觉证据。
C. 掩码引导的 HMR (Mask-Guided HMR)
最后,利用细化后的掩码作为空间提示,引导 SAM 3D Body 预测准确且时序一致的人体网格。这种"从 2D 连续性推导 3D 连续性"的策略,极大地降低了模型对时序标注数据的依赖。
3. 实验效果:实战场景表现
在野外复杂场景(In-the-wild videos)的测试中,SAM-Body4D 表现出了极强的鲁棒性:
- 动态捕捉: 对于快速运动的舞蹈或体育动作,网格贴合度极高。
- 复杂遮挡: 在人与人交叉、物体遮挡等场景下,依然能维持稳定的三维形态,不会出现肢体扭曲。
- 多目标处理: 凭借其并行策略,在处理多人同框视频时依然保持高效。
4. 快速上手:开发者如何复现?
如果你想在本地尝试这个项目,官方仓库提供了非常友好的配置流程。
仓库地址: https://github.com/gaomingqi/sam-body4d
基础环境配置比较简单
bash
# 创建环境
conda create -n body4d python=3.12 -y
conda activate body4d
# 安装依赖
pip install -r requirements.txt
#运行Demo
python app.py
5. 总结与展望
SAM-Body4D 证明了通过合理编排现有的基础大模型(Foundation Models),可以在无需重新训练的情况下解决复杂的视觉任务。对于虚拟现实(VR/AR)、动作捕捉、体育分析以及自动驾驶中的行人行为预测等领域,这无疑提供了一个高效且高质量的工具链。
本文由"探物 AI(全网同名)"原创,专注 AI 前沿技术与硬核教程。如果你对 AI 和感知算法应用感兴趣,欢迎关注并交流。