51c视觉~合集54

我自己的原文哦~ https://blog.51cto.com/whaosoft143/14340098

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#生物力学级3D人体重建的"起"与"兴"

HSMR到SKEL-CF

几十年来,从单张照片中恢复出栩栩如生的三维人体模型,一直是计算机视觉领域孜孜不倦追求的目标。我们希望得到的不仅是**"看起来像"** 的模型,更渴望它是**"动起来对"**的模型。传统的参数化模型,如大家熟知的SMPL,虽然在视觉上取得了巨大成功,但其简化的骨骼结构常常导致违反生理常识的"反关节"等不自然姿态,限制了其在生物力学、运动科学、医疗康复等高精度领域的应用。

图自 CVPR 25的HSMR文

正如上图所示,基于SMPL的模型(浅绿色)可能会产生膝盖向侧方弯曲等不自然的姿态,而符合生物力学约束的模型(浅蓝色)则能正确还原。为了解决这一根本性问题,研究者们将目光投向了更具挑战性、也更具价值的生物力学精确骨骼模型,其中 SKEL 模型应运而生。它在保留SMPL表面网格拓扑的同时,引入了符合解剖学定义的骨骼结构和关节自由度,为实现真正"动起来对"的3D人体重建铺平了道路。

今天,我们将沿着技术发展的脉络,回顾两篇里程碑式的论文,看研究者们如何一步步攻克难关,将这一理想变为现实。

开创先河:HSMR首次实现端到端生物力学骨架恢复

在​​CVPR 2025​​上,来自德克萨斯大学奥斯汀分校和浙江大学的研究者们发表的 HSMR (Human Skeleton and Mesh Recovery) ,迈出了该领域至关重要的第一步。这是首个能够从单张图片中,以端到端方式直接预测生物力学精确的SKEL模型参数的方法。

HSMR的挑战与巧思

HSMR面临的核心难题是"鸡生蛋还是蛋生鸡"的困境:训练一个能预测SKEL参数的深度学习模型,需要大量带有SKEL参数标注的图像数据,但这样的数据集在当时(25年3月份之前)完全不存在。

HSMR的解决思路巧妙而务实,如上图流程所示:

  1. 创造"第一桶金":研究者们利用现有的、带有SMPL伪标签的大规模数据集(如HMR2.0所用的数据),通过离线优化的方式,将SMPL网格尽可能地拟合到SKEL模型上,从而生成了一批初始的、质量尚可的SKEL伪标签。
  2. "在战争中学习战争"------伪标签迭代精炼: 他们深知初始伪标签存在误差(如下图所示,SMPL到SKEL的直接转换可能产生错误结果)。为此,HSMR在训练过程中引入了一种类似SPIN的在线优化机制。模型在训练时,会将其当前的预测结果作为初始值,去拟合图像中的2D关键点,得到一个更精确、更符合图像证据的SKEL参数。这个经过优化的新参数,会作为更"真实"的标签,反过来指导下一轮的模型训练。

通过这种"自举"的方式,HSMR的模型和数据质量在迭代中相互促进,共同提升。

HSMR的价值与局限

HSMR的实验结果令人振奋。一方面,在常规基准测试中,它的精度几乎与当时顶尖的SMPL模型(HMR2.0)持平。另一方面,在包含大量瑜伽等极限姿态的MOYO数据集上,HSMR的优势尽显,MPJPE误差比HMR2.0降低了超过18mm。这证明了生物力学约束在处理复杂姿态时强大的正则化能力,能有效避免不合理的身体扭曲。

上表清晰地展示了HSMR与HMR2.0在各项指标上的对比,特别是在MOYO数据集上的显著优势。

然而,作为开创者,HSMR也存在局限:其性能在某些指标上仍不及最先进的SMPL模型,且伪标签的生成和优化过程仍有提升空间。但它成功地证明了,直接学习生物力学模型是完全可行的,为后续工作指明了方向。

青出于蓝:SKEL-CF实现性能飞跃

紧随HSMR的脚步,一篇名为 SKEL-CF 的近期的新工作将这一技术路线推向了新的高度,实现了性能的巨大飞跃。

  • 论文: SKEL-CF: Coarse-to-Fine Biomechanical Skeleton and Surface Mesh Recovery
  • 机构: Intellindust AI Lab, 深圳大学, 上海科技大学, 大湾区大学, 滴滴出行
  • 项目主页: https://pokerman8.github.io/SKEL-CF/

SKEL-CF针对HSMR面临的挑战,从模型架构、训练数据和相机模型三个方面进行了全面升级。

SKEL-CF的三大"法宝"

  1. 从粗到精(Coarse-to-Fine)的架构:相比HSMR的直接回归,SKEL-CF采用了一个更精巧的Encoder-Decoder架构。编码器首先对图像进行分析,给出一个"粗糙"的初始SKEL参数预测。随后,解码器会在多个层级中,逐步对这个初始预测进行"精修",每一层都会让结果更逼近真实姿态。这种渐进式的优化策略,使得模型能更好地处理复杂的人体关节运动,避免陷入局部最优。
  2. 更高质量的训练数据(4DHuman-SKEL) :SKEL-CF认识到数据质量是性能的基石。它没有沿用HSMR基于原始4DHuman数据集生成的标签,而是选择了由CameraHMR项目精炼过、质量更高的SMPL标签作为起点,再通过优化的SKEL拟合流程,构建了一个全新的大规模、高保真度的SKEL训练集------ 4DHuman-SKEL。源头数据的质量提升,为训练出更精确的模型提供了坚实保障。
  3. 显式的相机模型:3D重建的另一个关键挑战是处理不同相机视角带来的透视模糊性。SKEL-CF明确地将相机内外参的估计整合到其流程中,借鉴了CameraHMR的方法来预测相机参数。这使得它能更好地理解物体的深度和尺度,从而在多变的视角下都能保持稳健的重建效果。

SKEL-CF的惊人表现

SKEL-CF的改进带来了立竿见影的效果。在与HSMR的直接对决中,其优势是压倒性的。

从上表中可以看到,在MOYO数据集上,SKEL-CF的 MPJPE从HSMR的104.5mm大幅降低至85.0mm ,而PA-MPJPE更是从79.6mm骤降至51.4mm,相对提升高达35.4%!在3DPW和Human3.6M等其他主流数据集上,SKEL-CF同样取得了全面的、大幅度的性能领先。

上图的视觉对比也直观地证明了SKEL-CF(右侧)相较于HSMR(中间),在骨骼和网格的重建精度上都更为出色,细节更加真实可信。

更令人印象深刻的是,SKEL-CF的性能不仅超越了同赛道的HSMR,甚至已经能够与当前最顶尖的SMPL模型(如CameraHMR)相媲美,在MOYO-Hard这种极端困难的场景下更是实现了反超。

这意味着,我们终于拥有了一个既能保证生物力学真实性,又能在精度上不输主流方法的强大工具。

写在最后

从HSMR的开创性探索,到SKEL-CF的集大成与飞跃,我们看到了一条从"概念可行"到"性能领先"的技术演进之路。HSMR勇敢地推开了生物力学级3D人体重建的大门,而SKEL-CF则用扎实的工程和算法创新,将这条路拓宽并铺平,使其真正具备了走向实际应用的潜力。

这一系列进展,不仅仅是几个性能数字的提升,它标志着计算机视觉与生物力学两个领域的深度融合迈出了关键一步。

值得一提的是,这个领域的技术正处于逐步兴起中,新工作性能巨大提升的背后也预示着更多优化机会,而且这两篇工作均已开源,感兴趣的朋友不妨进一步探索。

....

相关推荐
美团技术团队23 分钟前
美团 LongCat-Video-Avatar 正式发布,实现开源SOTA级拟真表现
人工智能
SickeyLee24 分钟前
基于Dify智能体开发平台开发一个目标检测智能体
人工智能·计算机视觉·目标跟踪
AI科技星25 分钟前
统一场论框架下万有引力常数的量子几何涌现与光速关联
数据结构·人工智能·算法·机器学习·重构
Coder个人博客31 分钟前
Apollo Canbus 底盘通信模块接口调用流程图与源码分析
人工智能·自动驾驶·apollo
孟祥_成都32 分钟前
前端和小白都能看懂的 LangChain Model 模块核心实战指南
前端·人工智能
玄微云35 分钟前
玄微科技:大健康数智化的 4 个 AI 智能体落地要点
大数据·人工智能·科技·软件需求·门店管理
蓝鲨硬科技35 分钟前
黄仁勋“梭哈”的物理AI,正在被中国企业变成现实
人工智能·chatgpt
Coder个人博客36 分钟前
Apollo Prediction 预测模块接口调用流程图与源码分析
人工智能·自动驾驶·apollo
热爱专研AI的学妹38 分钟前
【搭建工作流教程】使用数眼智能 API 搭建 AI 智能体工作流教程(含可视化流程图)
大数据·数据库·人工智能·python·ai·语言模型·流程图
LYFlied43 分钟前
Spec Coding:AI时代前端开发的范式革新
前端·人工智能·工程化·spec coding