自己的原文哦~ https://blog.51cto.com/whaosoft/14165531
#AnimateAnyMesh
文本驱动通用网格动画新范式,实现高效高质量4D内容生成
4D 内容生成,即包含时间维度信息的 3D 内容创建,在 VR/AR、游戏等领域具有广阔的应用前景。然而,由于时空建模的复杂性和高质量 4D 训练数据的稀缺性,创建高质量的动画 3D 模型仍然充满挑战。现有方法往往计算成本高昂,或受限于特定场景和物体类别。
本文将深入解读一篇题为《AnimateAnyMesh: A Feed-Forward 4D Foundation Model for Text-Driven Universal Mesh Animation》的最新研究。该论文提出了 AnimateAnyMesh ,这是 首个前向(Feed-Forward)通用网格动画框架,能够为任意 3D 网格实现高效的运动生成。AnimateAnyMesh 这个名字可以理解为"动画任意网格",强调了其能够对任何 3D 网格进行动画处理的通用性。

论文基本信息
- 论文标题:AnimateAnyMesh: A Feed-Forward 4D Foundation Model for Text-Driven Universal Mesh Animation
- 作者:Zijie Wu, Chaohui Yu, Fan Wang, Xiang Bai
- 机构:华中科技大学,阿里巴巴达摩院,湖畔实验室
- 论文地址:https://arxiv.org/abs/2506.09982
- 项目主页 :
https://animateanymesh.github.io/AnimateAnyMesh/
- 代码仓库 :
https://github.com/JarrentWu1031/AnimateAnyMesh
- 录用信息:ICCV 2025
研究背景与意义
3D 内容创作的革命性进展已经改变了 VR/AR 和游戏等领域。然而,将这些进展扩展到 4D 内容生成仍然面临挑战,主要原因在于时空建模的复杂性和高质量 4D 资产的稀缺性。
现有 4D 生成方法主要分为两类:
- 基于场景优化的方法:这类方法通常使用预训练的生成模型,但计算成本高昂,且需要耗时的逐场景优化。
- 多视图动态视频生成方法:这类方法通过对 4D 数据进行微调来合成多视图动态视频,但推理效率不高,且需要后处理。
为了克服这些限制,AnimateAnyMesh 提出了一种新颖的前向框架,将动态网格作为 4D 内容的理想表示,并专注于文本驱动的网格动画任务。
主要研究内容与方法
AnimateAnyMesh 框架的核心是 DyMeshVAE 和 Shape-Guided Text-to-Trajectory Model。

AnimateAnyMesh 能够为任意 3D 网格生成高质量的动画。给定一个静态网格和文本提示,该方法能够在几秒钟内生成高质量的动画。
DyMeshVAE:动态网格的压缩与重建

DyMeshVAE 是一个专门为动态网格序列设计的变分自编码器(VAE)。它首先将动态网格分解为初始帧顶点和相对轨迹,然后通过解耦的潜在空间进行编码。DyMeshVAE 引入了轨迹分解和拓扑感知注意力机制,有效处理了不同复杂度的网格,并保持了局部拓扑结构。
- 轨迹分解:将顶点序列分解为初始位置和相对轨迹,有助于解耦形状和运动,并使运动分布更接近零均值正态分布。
- 拓扑感知注意力机制:利用网格的拓扑结构(通过面信息构建邻接矩阵),在自注意力层中作为注意力掩码,确保在重建过程中保持拓扑结构并防止轨迹缠结。
- KL 正则化:在潜在空间中应用 KL 正则化,以调节特征多样性。
Shape-Guided Text-to-Trajectory Model:文本到轨迹生成

该模型基于 DyMeshVAE,学习在初始网格特征和文本提示条件下的相对轨迹的后验分布。它利用 Rectified Flow 训练策略,能够生成平滑、逼真的动画。
DyMesh Dataset:大规模 4D 数据集
为了支持高质量的文本条件生成,研究人员构建了一个大规模的 DyMesh Dataset,包含超过 400 万个动态网格序列,并附带文本注释。该数据集经过严格的收集、过滤、处理和注释流程,为 4D 生成提供了坚实的基础。
实验设计与结果分析
AnimateAnyMesh 在生成高质量、语义准确且时间连贯的网格动画方面表现出色。

该图展示了 AnimateAnyMesh 的动画示例。模型能够根据文本提示为任意输入网格生成高质量且语义合理的网格动画。
定性比较

该图展示了与最先进方法的定性比较。AnimateAnyMesh 在直接顶点轨迹预测方面取得了卓越结果,展示了两个关键优势:通过前向架构实现高效网格动画,以及在生成与提示对齐的逼真运动的同时增强局部几何细节的保留。
定量比较

该表展示了与最先进方法的定量比较。AnimateAnyMesh 在所有 VBench 指标上均表现优异,表明其在形状保留和时间运动连贯性方面均有效。此外,AnimateAnyMesh 显著降低了推理计算开销,使其在实际应用中具有巨大潜力。
消融研究

该图展示了网格邻接信息的消融研究。结果表明,网格连接信息的引入对于区分不同语义区域的顶点至关重要。

该表展示了 DyMeshVAE 技术组件的消融研究。框架中的每个架构组件在确保高质量网格动画方面都发挥着关键作用。
多样性展示

该图展示了 AnimateAnyMesh 生成的多样性。在给定相同的文本提示和初始网格条件下,AnimateAnyMesh 能够通过随机种子变化生成多样化、高质量的网格动画。
论文贡献价值
这项工作提出了 AnimateAnyMesh,一个用于文本驱动通用网格动画的前向 4D 基础模型。
- 首个前向通用网格动画框架:AnimateAnyMesh 是第一个能够为任意 3D 网格实现高效运动生成的前向框架,在几秒钟内即可生成高质量动画。
- DyMeshVAE 架构:引入了新颖的 DyMeshVAE 架构,通过轨迹分解和拓扑感知注意力机制,有效处理动态网格序列,并自然地扩展到不同复杂度的网格。
- 大规模 DyMesh Dataset :构建并整理了包含超过 400 万个动态网格序列的大规模数据集,为 4D 生成提供了坚实的基础。
- 卓越的性能和效率 :在文本驱动网格动画方面取得了 最先进的性能,结合了高保真度、通用性和计算效率。
这两天推理代码和模型权重已经开源,大家可以跑一下看看。
#GUAVA
单图创建可驱动的上半身3D化身!实时、高效,还能捕捉细腻的面部表情和手势
只用一张照片,就能秒变"虚拟分身"?最新研究 GUAVA 做到了!它不仅能实时驱动上半身 3D 化身,还能捕捉细腻的面部表情和手势,效果和效率都拉满。
01 介绍
创建逼真且富有表现力的上半身人体化身,例如包含细致的面部表情和丰富的手势,在电影、游戏和虚拟会议等领域具有重要价值 。同时,易于创建和支持实时渲染也是关键要求 。然而,仅凭单张图像实现这些目标仍然是一个的重大挑战。
3D Gaussian splatting (3DGS) 的兴起催生了许多3D化身重建方法,它们利用 3DGS 实现实时、高质量的化身重建 。然而,这些方法仍然存在一些局限性 :
- 逐ID练:每个个体都需要单独训练 。
- 训练复杂性:该过程耗时,需要标定的多视图或单目视频 。
- 表现力有限:头部重建方法缺乏身体动作表示,而全身方法则忽略了细致的面部表情 。
扩散模型在视频生成方面取得了显著成果 。一些工作通过添加额外条件,如关键点或 SMPLX渲染图,来引导扩散模型的生成过程,扩展了模型在生成可控人体动画视频上的应用。尽管这些方法实现了良好的视觉效果,但它们仍然面临一些局限性 :
- ID一致性:难以保持一致的 ID,尤其是在姿势发生大变化时 。
- 效率:高计算成本和多步去噪导致推理速度慢,阻碍了实时应用 。
- 视点控制:2D 方法无法轻松调整相机姿势,从而限制了视点控制 。
我们提出了 GUAVA,第一个从单张图像创建可驱动上半身 3D高斯化身的框架。与需要多视图视频或单人训练的3D方法不同,GUAVA 可以在秒级时间内完成推理重建,并支持实时动画和渲染 。与基于扩散模型的2D方法相比,GUAVA使用 3D高斯来确保更好的ID一致性和实时渲染 。并引入一种富有表现力的人体模型EHM,解决了现有模型在捕捉细致面部表情方面的局限性 。还利用逆纹理映射技术以准确地预测高斯纹理,并结合一个神经渲染器来提高渲染质量 。通过充分的实验也展示了其在渲染质量和效率方面优于现有2D和3D方法 。目前,相关代码已开源,欢迎关注与使用。
- 论文标题:GUAVA: Generalizable Upper Body 3D Gaussian Avatar
- 论文地址: https://arxiv.org/pdf/2505.03351
- 项目主页:https://eastbeanzhang.github.io/GUAVA/
- 开源代码:https://github.com/Pixel-Talk/GUAVA
- 视频Demo: https://www.bilibili.com/video/BV1k45AzaEpW/
,时长01:45
02 方法

EHM 模型与精确跟踪: 为了解决SMPLX 模型在捕捉面部表情上的不足,GUAVA 引入了 EHM(Expressive Human Model),EHM 结合了 SMPLX 和 FLAME 模型,能够实现更准确的面部表情表示。同时我们设计了对应的通过两阶段追踪方法,实现从单张图像到姿态的准确估计。首先利用预训练模型进行粗略估计,然后使用 2D 关键点损失进行精细优化,从而为重建提供精确的姿势和表情参数。
快速重建与双分支模型: GUAVA基于追踪后的图像通过单次前向推理方式完成化身的重建。它包含两个分支:一个分支根据 EHM 顶点和投影特征预测粗略的"模板高斯",另一个分支则通过"逆纹理映射"技术,将屏幕特征映射到 UV 空间,生成捕捉精细细节的"UV 高斯"。这两种高斯组合成完整的 Ubody 高斯,从而在保持几何结构的同时,捕捉丰富的纹理细节。
实时动画与渲染:重建完成后,Ubody 高斯可以根据新的姿势参数进行变形和动画 。最后,通过神经细化器对渲染的图像进行优化,以增强细节和渲染质量 。
03 实验
实验设置
我们从 YouTube、OSX和 HowToSign收集视频数据集,主要关注人体上半身视频。其中训练集包含超过 62 万帧,测试集包含 58 个 ID 。为确保评估的全面性,实验采用了多种指标:自重演(self-reenactment)场景下,通过 PSNR、L1、SSIM 和 LPIPS 评估动画结果的图像质量 ;跨重演(cross-reenactment)场景下,使用 ArcFace 计算身份保留分数(IPS)以衡量 ID 一致性 。评估中与 MagicPose、Champ、MimicMotion 等2D方法以及 GART、GaussianAvatar 和 ExAvatar 3D方法进行比较。
定量结果
Self-reenactment:与 2D 方法相比,GUAVA 在所有指标(PSNR, L1, SSIM, LPIPS)上均表现最佳,并在动画和渲染速度上达到约 50 FPS,而其他方法仅为每秒几帧 。与 3D 方法相比,GUAVA 的重建时间仅为 0.1 秒左右,而其他方法需要数分钟到数小时 。


Cross-reenactment:GUAVA 在身份保留分数(IPS)上显著优于其他所有 2D 方法,证明了其在不同姿势下保持 ID 一致性的能力 。

定性结果
尽管 2D 方法能生成高质量图像,但它们在保持 ID 一致性和准确恢复复杂手势及面部表情方面存在不足 。例如,Champ 的手部模糊 ,MagicPose 存在失真 ,而 MimicMotion 则无法保持 ID 一致性 。3D 方法在处理精细的手指和面部表情方面存在困难,也缺乏泛化能力,在未见区域或极端姿势下会产生伪影 。GUAVA 则能对未见区域生成合理的结果,在极端姿势下表现出更好的鲁棒性,并提供更准确、更细致的手部和面部表情 。



消融实验
为了验证方法中各个部分的有效性,在论文中进行了充分的消融实验。



04 论文总结
该论文介绍了 GUAVA,一个用于从单张图像重建可动画、具有细腻表现力上半身 3D化身的快速框架,研究通过引入 EHM 模型及其精确跟踪方法,增强了面部表情、形状和姿势的捕捉能力,论文通过UV 高斯和模板高斯的两个推理分支共同构建一个上半身高斯。实验结果表明,GUAVA 在渲染质量和效率方面均优于现有方法,它实现了约 0.1 秒的重建时间,并支持实时动画和渲染。
#RadGS-Reg
融合3D高斯重建与3D/3D配准,实现高精度实时脊柱CT与X光图像对齐
近日,来自河海大学、中国科学技术大学等机构的研究者们提出了一种名为 RadGS-Reg 的新型学习驱动框架,旨在解决图像引导导航中极具挑战性的脊柱CT与双平面X光图像的配准问题。
该框架巧妙地将基于三维辐射高斯(3D Radiative Gaussians, RadGS)的重建技术与3D/3D配准相结合,实现了端到端的优化。值得一提的是,RadGS-Reg中的"RadGS"代表"Radiative Gaussians",这是一种新兴的、能够高效高质量进行三维重建的表示方法;"Reg"则是"Registration"(配准)的缩写。整个名称揭示了其核心思想:利用RadGS进行三维重建,并以此为基础完成配准。实验结果表明,该方法在重建质量和配准精度上均达到了 当前最优水平(SOTA) ,mTRE指标低至 1.14 mm ,运行时间仅为 0.82秒,展现了其在临床应用中的巨大潜力。
- 论文标题: RadGS-Reg: Registering Spine CT with Biplanar X-rays via Joint 3D Radiative Gaussians Reconstruction and 3D/3D Registration
- 作者团队: Ao Shen, Xueming Fu, Junfeng Jiang, Qiang Zeng, Ye Tang, Zhengming Chen, Luming Nong, Feng Wang, S. Kevin Zhou
- 作者机构: 河海大学;中国科学技术大学;南京医科大学第三附属医院;Tuodao Medical Technology Co., Ltd(佗道医疗科)
- 论文地址: https://arxiv.org/abs/2508.21154
- 项目地址: https://github.com/shenao1995/RadGS_Reg
研究背景与意义
在现代图像引导的脊柱外科手术中,将术前获取的高分辨率三维CT图像与术中获取的二维X光图像进行精确配准,对于手术导航、提高手术精度和安全性至关重要。然而,这一2D/3D配准任务面临着严峻的挑战:既要保证亚毫米级的精度,又要满足手术中的实时性要求。
传统的配准方法通常遵循"渲染并比较"(render and compare)的范式。它们通过反复将三维CT体数据投影成二维的数字重建放射影像(DRR),再将其与真实的X光图像进行比对,迭代优化CT的位姿。这类方法存在两大固有缺陷:首先,从3D到2D的投影过程会不可避免地丢失空间深度信息;其次,DRR与真实X光图像之间存在显著的"域差距"(domain gap),即图像特征和外观差异较大,影响了比对的准确性。
为了克服这些问题,一种思路是先利用术中的双平面(biplanar)X光图像重建出患者当前姿态的三维结构,再将其与术前CT进行3D到3D的配准。这种方法能够补充缺失的空间和形状信息,但现有技术往往需要密集的X光视图才能获得较好的重建效果,并且在处理充满噪声的真实X光图像时表现不佳。
因此,如何从稀疏、带噪的双平面X光图像中快速、准确地重建出三维椎体,并完成与CT的精确配准,是该领域亟待解决的难题。
RadGS-Reg:联合重建与配准的新范式
为应对上述挑战,研究者们提出了RadGS-Reg框架。该框架创新性地将3D重建和3D/3D配准两个过程进行联合学习和协同优化,其总体流程如下图所示。

整个框架包含两个核心模块:重建模块(RecM)和配准模块(RegM),以及协同训练和推理两个阶段。
学习驱动的双平面X光椎体RadGS重建
这是整个框架的第一步,也是关键创新之一。该模块的目标是从两张相互垂直的X光片(AP和LA视图)中,重建出对应椎体的三维辐射高斯(RadGS)模型。RadGS作为一种新颖的三维场景表示方法,由一系列带有位置、协方差、颜色和不透明度属性的3D高斯体组成,能够实现高质量的实时渲染,非常适合用于生成高质量的DRR。
为了解决真实X光图像中椎体特征模糊、易受邻近组织干扰的问题,研究者引入了一种反事实注意力学习(Counterfactual Attention Learning, CAL)机制。CAL机制能够引导网络将注意力更集中于真正的椎体区域,忽略无关的背景和噪声。如下图所示,加入CAL机制后(w/),网络的注意力图(Attention maps)能更精准地聚焦于椎体结构,显著提升了重建质量。

3D/3D配准与协同训练
重建模块生成的RadGS模型被体素化(voxelized)后,与经过分割的术前CT椎体模型一同送入配准模块。配准模块负责计算两者之间的刚性变换(旋转和平移),从而实现对齐。
RadGS-Reg的另一大亮点是其协同训练(Synergistic Training)策略。不同于分步训练,该策略将重建损失和配准损失联合起来进行端到端的优化。这意味着重建过程可以利用来自配准任务的反馈来提升重建质量,而更精确的重建反过来又能促进配准的准确性,二者相辅相成,最终达到整体性能的最优。
患者特异性预训练策略
为了让模型更好地从模拟数据过渡到真实临床数据,并学习到椎体的形状先验知识,论文还提出了一种三阶段的患者特异性预训练(patient-specific pre-training)策略。
- 第一阶段: 在大规模的公开模拟数据集(VERSE '20)上进行预训练,让模型学习通用的椎体特征。
- 第二阶段: 在小规模的真实X光数据集上进行微调,使模型适应真实数据的噪声和成像特性。
- 第三阶段: 针对特定患者的CT数据生成该患者的DRR,进行患者特异性微调,让模型学习该患者独特的椎体形状先验。
这种渐进式的适应策略,使得模型能够充分利用不同来源的数据,显著提升了在真实场景下的鲁棒性和准确性。
实验设计与结果分析
全面超越现有方法的性能
研究团队在一个包含模拟数据和真实临床数据的内部数据集上,将RadGS-Reg与多种主流的重建和配准方法进行了对比。
如下表所示,在重建任务 中,RadGS-Reg的SSIM(结构相似性)和PSNR(峰值信噪比)指标分别达到了 94.51% 和 28.80 dB ,远超基于NeRF和传统3DGS的方法。在配准任务 中,其mTRE(平均目标配准误差)仅为 1.14 mm ,成功率(SR,mTRE < 2mm)高达 93.33% ,并且平均处理时间仅需 0.82秒,满足临床实时性要求。

下图直观地展示了RadGS-Reg与其他配准方法的定性比较。可以看到,无论是初始位姿(Initial pose)与目标位姿(Target pose)相差多大,Ours(RadGS-Reg)预测的位姿(Predicted pose)都与目标位姿高度重合,而其他方法则存在明显的配准偏差。

消融实验验证关键模块有效性
为了验证框架中各个创新点的有效性,论文还进行了详细的消融研究。结果表明,无论是CAL机制、协同训练策略,还是三阶段预训练,都对最终的性能提升起到了至关重要的作用。例如,完整的预训练策略(P_Full)相比仅使用第一阶段预训练(P1)的RadGS-Reg,mTRE从4.03mm大幅降低至1.14mm。

论文贡献与价值
CV君认为,这篇论文为解决长期存在的2D/3D医学图像配准难题提供了一个全新的、高效的解决方案。其主要贡献可以总结为以下几点:
- 提出RadGS-Reg框架: 首次将3D RadGS重建与3D/3D配准进行协同训练,创建了一个统一、高效的椎体CT/X光配准框架。
- 引入CAL机制: 创新地使用反事实注意力学习来处理嘈杂X光图像中的干扰,提高了椎体重建的准确性。
- 设计渐进式预训练策略: 通过模块感知和数据感知的训练策略,有效结合了模拟与真实数据,增强了模型的泛化能力和对患者的特异性适应能力。
- SOTA性能与开源贡献: 在重建和配准任务上均取得了当前最佳性能,且满足临床实时性要求。同时,作者公开了项目代码,便于社区跟进研究和应用。
总而言之,RadGS-Reg通过其创新的联合学习框架和多项关键技术,显著提升了脊柱CT/X光配准的精度和效率,为实现更精准、更安全的图像引导手术铺平了道路。