零样本、免训练！SAM-Body4D 来了：实现视频级 4D 人体网格重建，复杂遮挡也能稳如泰山

在计算机视觉领域，从单目视频中恢复三维人体姿态和形状（Human Mesh Recovery, HMR）一直是一项极具挑战性的任务。尽管现有的图像级模型（如 SAM 3D Body）表现强劲，但在处理视频时，往往会因为逐帧预测导致"跳变"不稳定，或者在遭遇遮挡时"丢人"。

近日，来自谢菲尔德大学等机构的研究团队开源了 SAM-Body4D 。这是一个无需额外训练 （Training-Free）的框架，通过巧妙结合 SAM 系列模型，实现了时间连续、遮挡鲁棒的 4D 人体网格恢复。

传统的视频 HMR 往往需要大规模的标注数据进行时序建模，或者依赖复杂的优化算法。SAM-Body4D 另辟蹊径，其核心优势在于：

SAM-Body4D 的工作流程可以概括为三个核心组件的有机结合：

该模块利用可提示的视频分割模型（如 SAM 2/3），通过像素级的连续性来跟踪目标人物。它能够跨帧保持身份一致性，为后续的 3D 重建提供可靠的时空线索。

这是该框架的"点睛之笔"。当人体被遮挡时，普通的分割会产生空洞。SAM-Body4D 利用 Diffusion-VAS 模型对掩码进行修复，补全被遮挡的肢体，确保下游 HMR 模块获得完整的视觉证据。

最后，利用细化后的掩码作为空间提示，引导 SAM 3D Body 预测准确且时序一致的人体网格。这种"从 2D 连续性推导 3D 连续性"的策略，极大地降低了模型对时序标注数据的依赖。

在野外复杂场景（In-the-wild videos）的测试中，SAM-Body4D 表现出了极强的鲁棒性：

如果你想在本地尝试这个项目，官方仓库提供了非常友好的配置流程。

仓库地址： https://github.com/gaomingqi/sam-body4d

bash 复制代码

# 创建环境
conda create -n body4d python=3.12 -y
conda activate body4d

# 安装依赖
pip install -r requirements.txt

#运行Demo
python app.py

SAM-Body4D 证明了通过合理编排现有的基础大模型（Foundation Models），可以在无需重新训练的情况下解决复杂的视觉任务。对于虚拟现实（VR/AR）、动作捕捉、体育分析以及自动驾驶中的行人行为预测等领域，这无疑提供了一个高效且高质量的工具链。

本文由"探物 AI（全网同名）"原创，专注 AI 前沿技术与硬核教程。如果你对 AI 和感知算法应用感兴趣，欢迎关注并交流。