清华团队开源SCAIL-2：角色动画告别骨骼依赖，端到端还原视频中动作细节

如果有一段动人的舞蹈视频，你能不能让喜欢的动漫角色原样跳出来？

难点不在于摆出几个大致姿势，而在于把手指动作、重心变化和衣摆细节都还原到位。

过去的动作迁移，通常先把视频中的人物提炼成骨骼，再用这套骨骼带动目标角色。但骨骼只能保留大致动作，比如"手抬起来了"，很多手部细节还是会丢失。更麻烦的是，如果多个角色的骨骼重叠，模型马上就分不清"谁是谁"了。

为解决这个问题，清华大学团队推出并开源了一个端到端的统一可控角色动画框架 SCAIL-2，将角色动画中的多个子任务统一到了一个模型中，不再依赖骨骼这类中间表示，而是直接从输入视频中提取动作和场景信息。

论文链接：https://arxiv.org/abs/2606.10804

GitHub 地址：https://github.com/zai-org/SCAIL-2

在多项主流评测中，SCAIL-2 的整体性能优于 Wan-Animate、MoCha 等方法，部分指标接近甚至超过 Kling 3.0。统一的端到端建模不仅能覆盖更多任务，也能兼顾效果与泛化能力。

值得一提的是，由于 SCAIL-2 是通过视觉上下文而非骨架语义进行学习的，因此它能够推广到完全超出训练范围的其他场景，如动物和第一人称视角视频。

SCAIL-2是怎样练成的？

端到端训练的难点首先在于配对数据，它需要"同一动作、不同角色"的配对视频，但这类数据很难直接收集。

在这项工作中，研究团队首先从真实视频合成出一段"动作不变、角色改变"的视频，再用它作为输入、用真实视频作为目标进行训练。这样操作使得合成误差不会直接进入监督信号。最终，他们筛出了约 6 万对配对数据，构建了一个支持端到端驱动范式的异构数据集 MotionPair-60K。

图｜用于构建多样化、高质量跨身份动作配对的合成流程概览

研究团队基于 In-Context Driving，统一处理单人动画、多人同步、角色替换及其组合任务。除此之外，他们提出了上下文掩码约束（In-Context Mask Conditioning），在原始视觉输入之外，再加入两类掩码通道，分别用于环境切换和角色绑定，环境切换掩码用于告知模型，背景应当来自参考图像还是驱动视频；角色绑定掩码则用于指示驱动视频中的哪个角色对应目标中的哪个角色。两类掩码通道由 SAM3 自动提取，无需人工标注。

图｜模型架构与上下文掩码信号概览

为让同一个模型同时处理动画和替换任务，研究团队还设计了模式特定上下文 RoPE（Mode-Specific Shifted RoPE）。在动画模式下，模型需要重新生成首帧；在替换模式下，则保留驱动视频第一帧的背景，只替换其中的角色。两种模式采用不同的位置编码偏移，并与上下文掩码条件协同工作，实现统一建模。

在后训练阶段，最明显的问题还是手部细节，因为手指关节最难稳定估计，误差也最容易累积。为此，研究团队提出了偏差感知 DPO（Bias-Aware DPO），通过构造一对动作基本一致、细节质量不同的样本，并使用 DPO 进行偏好优化，让模型学会偏向更准确的手部细节。即使损失只作用于手部区域，嘴部、肩部等其他细节也会随之改善。

生成效果怎么样？

在 Studio-Bench 上，研究团队分别评测了 SCAIL-2 在单角色动画、多角色动画和角色替换三方面的性能。

结果显示，SCAIL-2 在单角色动画任务上表现突出。以动作一致性为例，相比前代 SCAIL 和 Wan-Animate，其胜率分别达到 68.3% 和 65.0%；即便与商业系统 Kling 3.0 对比，也取得了 36.7% 的胜率，并有 23.3% 的结果持平。

图｜SCAIL-2 在 Studio-Bench 上的单角色动画评测结果

在更复杂的多角色场景中，SCAIL-2 的优势同样明显。相比 Wan-Animate，SCAIL-2 在动作一致性、身份隔离和身份一致性三项指标上的胜率分别达到 76.7%、90.0% 和 60.0%。

图｜SCAIL-2 在 Studio-Bench 上的多角色动画评测结果

在角色替换任务中，相比 Wan-Animate 和 MoCha，SCAIL-2 也取得了更好的效果。

图｜SCAIL-2 在 Studio-Bench 上的角色替换评测结果

除此之外，研究团队还补充了自动指标结果。结果显示，在 X-Dance 的 Video-Bench 测试里，SCAIL-2 在图像质量和角色外观一致性上表现最好。

图｜X-Dance 上的视频质量自动评测结果

而在姿态驱动场景下，换用信息更完整的人体网格作为条件后，SCAIL-2 在 SSIM、PSNR 这些指标也取得了更好的成绩。

图｜ Studio-Bench 姿态驱动分区中单角色子集上的单角色动画量化指标

除定量指标提升外，研究团队还展示了跨身份条件下与多种基线方法的可视化对比。结果表明，SCAIL-2 在跨身份角色动画、角色替换和多角色动画等任务中表现更稳定，在复杂交互和遮挡场景下也能生成更一致的结果。

图｜在跨身份输入条件下与基线方法的定性对比

局限与未来方向

当然，SCAIL-2 并非完美，依然存在一些亟待解决的问题。

例如，尽管端到端设计能够直接向模型输入更完整、天然更丰富的视觉信息，但仍高度依赖高质量配对数据。同时，合成流水线缓解了数据稀缺，却没有解决数据质量瓶颈，因为其保真度仍受生成器能力限制。此外，SCAIL-2 所采用的 Bias-Aware DPO 虽然能够建模针对偏差的偏好，但对于细粒度区域而言，可靠的正样本仍然难以获得。

研究团队表示，未来可通过更先进的模型和更高效的数据合成流程，进一步提升数据质量，并将这一框架拓展到更多任务中。

更多技术细节，详见原论文。

作者：夏千斯

如需转载或投稿，请直接在本文章评论区内留言