51c视觉~合集54

我自己的原文哦~ https://blog.51cto.com/whaosoft143/14340098

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#生物力学级3D人体重建的"起"与"兴"

HSMR到SKEL-CF

几十年来,从单张照片中恢复出栩栩如生的三维人体模型,一直是计算机视觉领域孜孜不倦追求的目标。我们希望得到的不仅是**"看起来像"** 的模型,更渴望它是**"动起来对"**的模型。传统的参数化模型,如大家熟知的SMPL,虽然在视觉上取得了巨大成功,但其简化的骨骼结构常常导致违反生理常识的"反关节"等不自然姿态,限制了其在生物力学、运动科学、医疗康复等高精度领域的应用。

图自 CVPR 25的HSMR文

正如上图所示,基于SMPL的模型(浅绿色)可能会产生膝盖向侧方弯曲等不自然的姿态,而符合生物力学约束的模型(浅蓝色)则能正确还原。为了解决这一根本性问题,研究者们将目光投向了更具挑战性、也更具价值的生物力学精确骨骼模型,其中 SKEL 模型应运而生。它在保留SMPL表面网格拓扑的同时,引入了符合解剖学定义的骨骼结构和关节自由度,为实现真正"动起来对"的3D人体重建铺平了道路。

今天,我们将沿着技术发展的脉络,回顾两篇里程碑式的论文,看研究者们如何一步步攻克难关,将这一理想变为现实。

开创先河:HSMR首次实现端到端生物力学骨架恢复

在​​CVPR 2025​​上,来自德克萨斯大学奥斯汀分校和浙江大学的研究者们发表的 HSMR (Human Skeleton and Mesh Recovery) ,迈出了该领域至关重要的第一步。这是首个能够从单张图片中,以端到端方式直接预测生物力学精确的SKEL模型参数的方法。

HSMR的挑战与巧思

HSMR面临的核心难题是"鸡生蛋还是蛋生鸡"的困境:训练一个能预测SKEL参数的深度学习模型,需要大量带有SKEL参数标注的图像数据,但这样的数据集在当时(25年3月份之前)完全不存在。

HSMR的解决思路巧妙而务实,如上图流程所示:

  1. 创造"第一桶金":研究者们利用现有的、带有SMPL伪标签的大规模数据集(如HMR2.0所用的数据),通过离线优化的方式,将SMPL网格尽可能地拟合到SKEL模型上,从而生成了一批初始的、质量尚可的SKEL伪标签。
  2. "在战争中学习战争"------伪标签迭代精炼: 他们深知初始伪标签存在误差(如下图所示,SMPL到SKEL的直接转换可能产生错误结果)。为此,HSMR在训练过程中引入了一种类似SPIN的在线优化机制。模型在训练时,会将其当前的预测结果作为初始值,去拟合图像中的2D关键点,得到一个更精确、更符合图像证据的SKEL参数。这个经过优化的新参数,会作为更"真实"的标签,反过来指导下一轮的模型训练。

通过这种"自举"的方式,HSMR的模型和数据质量在迭代中相互促进,共同提升。

HSMR的价值与局限

HSMR的实验结果令人振奋。一方面,在常规基准测试中,它的精度几乎与当时顶尖的SMPL模型(HMR2.0)持平。另一方面,在包含大量瑜伽等极限姿态的MOYO数据集上,HSMR的优势尽显,MPJPE误差比HMR2.0降低了超过18mm。这证明了生物力学约束在处理复杂姿态时强大的正则化能力,能有效避免不合理的身体扭曲。

上表清晰地展示了HSMR与HMR2.0在各项指标上的对比,特别是在MOYO数据集上的显著优势。

然而,作为开创者,HSMR也存在局限:其性能在某些指标上仍不及最先进的SMPL模型,且伪标签的生成和优化过程仍有提升空间。但它成功地证明了,直接学习生物力学模型是完全可行的,为后续工作指明了方向。

青出于蓝:SKEL-CF实现性能飞跃

紧随HSMR的脚步,一篇名为 SKEL-CF 的近期的新工作将这一技术路线推向了新的高度,实现了性能的巨大飞跃。

  • 论文: SKEL-CF: Coarse-to-Fine Biomechanical Skeleton and Surface Mesh Recovery
  • 机构: Intellindust AI Lab, 深圳大学, 上海科技大学, 大湾区大学, 滴滴出行
  • 项目主页: https://pokerman8.github.io/SKEL-CF/

SKEL-CF针对HSMR面临的挑战,从模型架构、训练数据和相机模型三个方面进行了全面升级。

SKEL-CF的三大"法宝"

  1. 从粗到精(Coarse-to-Fine)的架构:相比HSMR的直接回归,SKEL-CF采用了一个更精巧的Encoder-Decoder架构。编码器首先对图像进行分析,给出一个"粗糙"的初始SKEL参数预测。随后,解码器会在多个层级中,逐步对这个初始预测进行"精修",每一层都会让结果更逼近真实姿态。这种渐进式的优化策略,使得模型能更好地处理复杂的人体关节运动,避免陷入局部最优。
  2. 更高质量的训练数据(4DHuman-SKEL) :SKEL-CF认识到数据质量是性能的基石。它没有沿用HSMR基于原始4DHuman数据集生成的标签,而是选择了由CameraHMR项目精炼过、质量更高的SMPL标签作为起点,再通过优化的SKEL拟合流程,构建了一个全新的大规模、高保真度的SKEL训练集------ 4DHuman-SKEL。源头数据的质量提升,为训练出更精确的模型提供了坚实保障。
  3. 显式的相机模型:3D重建的另一个关键挑战是处理不同相机视角带来的透视模糊性。SKEL-CF明确地将相机内外参的估计整合到其流程中,借鉴了CameraHMR的方法来预测相机参数。这使得它能更好地理解物体的深度和尺度,从而在多变的视角下都能保持稳健的重建效果。

SKEL-CF的惊人表现

SKEL-CF的改进带来了立竿见影的效果。在与HSMR的直接对决中,其优势是压倒性的。

从上表中可以看到,在MOYO数据集上,SKEL-CF的 MPJPE从HSMR的104.5mm大幅降低至85.0mm ,而PA-MPJPE更是从79.6mm骤降至51.4mm,相对提升高达35.4%!在3DPW和Human3.6M等其他主流数据集上,SKEL-CF同样取得了全面的、大幅度的性能领先。

上图的视觉对比也直观地证明了SKEL-CF(右侧)相较于HSMR(中间),在骨骼和网格的重建精度上都更为出色,细节更加真实可信。

更令人印象深刻的是,SKEL-CF的性能不仅超越了同赛道的HSMR,甚至已经能够与当前最顶尖的SMPL模型(如CameraHMR)相媲美,在MOYO-Hard这种极端困难的场景下更是实现了反超。

这意味着,我们终于拥有了一个既能保证生物力学真实性,又能在精度上不输主流方法的强大工具。

写在最后

从HSMR的开创性探索,到SKEL-CF的集大成与飞跃,我们看到了一条从"概念可行"到"性能领先"的技术演进之路。HSMR勇敢地推开了生物力学级3D人体重建的大门,而SKEL-CF则用扎实的工程和算法创新,将这条路拓宽并铺平,使其真正具备了走向实际应用的潜力。

这一系列进展,不仅仅是几个性能数字的提升,它标志着计算机视觉与生物力学两个领域的深度融合迈出了关键一步。

值得一提的是,这个领域的技术正处于逐步兴起中,新工作性能巨大提升的背后也预示着更多优化机会,而且这两篇工作均已开源,感兴趣的朋友不妨进一步探索。

....

相关推荐
九千七5261 小时前
sklearn学习(4)K近邻(KNN)
人工智能·学习·机器学习·sklearn·knn·近邻搜索
沫儿笙1 小时前
kuka库卡弧焊接机器人保护气节气装置
人工智能·物联网·机器人
路边草随风1 小时前
flink实现变更算子checkpoint断点续传依然生效
大数据·人工智能·flink
西猫雷婶1 小时前
CNN卷积计算|多维卷积核自动计算
人工智能·pytorch·深度学习·神经网络·机器学习·cnn
skywalk81631 小时前
用Trae的sole模式来模拟文心快码comate的Spec Mode模式来做一个esp32操作系统的项目2
人工智能·trae·esp32c3·solo
夫唯不争,故无尤也1 小时前
Transformer 原理系列(第一章)—— 从序列相关性出发,理解注意力机制的本质
人工智能·深度学习·transformer
美狐美颜SDK开放平台1 小时前
直播平台美颜SDK开发全流程:UI、算法、渲染到产品化的落地
人工智能·美颜sdk·直播美颜sdk·美颜api·美狐美颜sdk
weixin_505154461 小时前
在浏览器实现3D效果,有最优雅的解决方案吗?
人工智能·3d·数字孪生·3d产品配置器·3d交互展示·3d数字资产