浙大|腾讯|华为 提出定制化视频生成框架VideoMaker,可通过参考图实现Zero-shot定制化视频生成。

浙大联合腾讯和华为提出了一种新的定制化视频生成框架------VideoMaker,利用VDM的内在能力,实现高质量的zero-shot定制化视频生成。该方法通过直接输入参考图像到VDM中,利用其固有的特征提取和注入机制,克服了以往方法在特征一致性和多样性方面的不足。通过对人类和物体视频生成的实验验证了该框架的有效性。

相关链接

论文介绍

零样本定制视频生成因其巨大的应用潜力而备受关注。现有方法依赖于附加模型来提取和注入参考主体特征,认为单靠视频扩散模型 (VDM) 不足以生成零样本定制视频。然而,由于特征提取和注入技术不够完善,这些方法往往难以保持一致的主体外观。论文揭示了 VDM 本身具有提取和注入主体特征的能力。与以前的启发式方法不同,论文引入了一个新框架,利用 VDM 的固有能力来实现高质量的零样本定制视频生成。

具体而言,对于特征提取直接将参考图像输入 VDM 并使用其固有的特征提取过程,这不仅提供了细粒度的特征,而且与 VDM 的预训练知识显著一致。对于特征注入通过 VDM 中的空间自注意力设计了一种创新的主体特征与生成内容之间的双向交互,确保 VDM 具有更好的主体保真度,同时保持生成视频的多样性。对定制人物和物体视频生成的实验验证了该框架的有效性。

方法

VideoMaker 的整体流程。 将参考图像直接输入到 VDM 中,并使用 VDM 的模块进行细粒度的特征提取。论文修改了空间自注意力的计算以实现特征注入。此外,为了区分参考特征和生成内容,论文设计了指导信息识别损失来优化训练策略。该方法基于AnimateDiff实现了高保真零镜头定制人物和物体视频生成。

VideoMaker的两个关键步骤:

  • 特征提取:直接将无噪声的参考图像输入VDM,视作时间步t=0的特殊情况,VDM能够有效提取出细粒度的主观特征。使用VDM的Resblock结构作为特征提取器,提取与参考图像对应的特征,确保提取的特征与VDM的知识高度一致。

  • 特征注入:通过VDM的空间自注意力机制,将提取的主观特征与生成内容进行交互,确保生成视频中主观对象的外观一致性。设计了一种创新的训练策略,利用引导信息识别损失,引导模型有效区分参考信息和生成内容,从而提高生成质量。

结果

定制名人视频生成结果

名人定制人体视频生成的定性比较。我们选择 AnimateDiff SD1.5 版本作为基础视频传播模型。由于 PhotoMaker 仅对 SDXL 进行了预训练权重,因此我们使用分辨率为 512×512 的 AnimateDiff SDXL 生成的结果进行比较。

定制非名人视频生成结果

对非名人定制人体视频生成的定性比较。我们选择 AnimateDiff SD1.5 版本作为我们的基础视频传播模型。由于 PhotoMaker 仅对 SDXL 进行了预训练权重,因此我们使用分辨率为 512×512 的 AnimateDiff SDXL 生成的结果进行比较。

定制对象视频生成。

定制对象视频生成的定性比较

参考

1\] Ye H, Zhang J, Liu S, et al. IP-adapter: Text compatible image prompt adapter for text-to-image diffusion models\[J\]. arXiv preprint arXiv:2308.06721, 2023. \[2\] He X, Liu Q, Qian S, et al. ID-Animator: Zero-shot identity-preserving human video generation\[J\]. arXiv preprint arXiv:2404.15275, 2024. \[3\] Li Z, Cao M, Wang X, et al. PhotoMaker: Customizing realistic human photos via stacked id embedding\[C\]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 8640-8650. \[4\] Jiang Y, Wu T, Yang S, et al. Videobooth: Diffusion-based video generation with image prompts\[C\]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 6689-6700.

相关推荐
喜欢吃豆17 小时前
从像素到篇章:深入剖析光学字符识别(OCR)的技术原理
人工智能·算法·语言模型·自然语言处理·大模型·ocr
LaughingZhu17 小时前
Product Hunt 每日热榜 | 2025-09-01
人工智能·经验分享·搜索引擎·产品运营
水印云17 小时前
视频提取文字用什么软件好?分享6款免费的视频转文字软件!
人工智能·音视频·语音识别
这张生成的图像能检测吗17 小时前
(论文速读)BlenderGym:图形编辑的基准基础模型系统
人工智能·计算机视觉·图像生成·图像编辑
Hody9117 小时前
【XR技术概念科普】VST(视频透视)vs OST(光学透视):解码MR头显的两种核心技术路径
音视频·mr
IT_陈寒17 小时前
Python 3.12 的7个性能优化技巧,让你的代码快如闪电!
前端·人工智能·后端
大模型真好玩18 小时前
大模型工程面试经典(三)—如何通过微调提升Agent性能?
人工智能·面试·agent
zzywxc78718 小时前
苹果WWDC25开发秘鉴:AI、空间计算与Swift 6的融合之道
java·人工智能·python·spring cloud·dubbo·swift·空间计算
DogDaoDao18 小时前
深入解析quiche开源项目:从QUIC协议到云原生实践
音视频·实时音视频·tcp·quic·视频直播·流媒体协议·quiche
优思学苑19 小时前
优思学院|质量工作会被AI代替吗?
人工智能