阿里又整活儿:一张人脸一句话就能跳《擦玻璃》,服装背景随意换!

网友:Unbelievable

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

继AnimateAnyone之后,阿里又一项"舞蹈整活儿"论文火了------

这一次,只需一张脸部照片、一句话描述,就能让你在任何地方跳舞

例如下面这段《擦玻璃》的舞蹈视频:

你所需要做的就是"投喂"一张人像,以及一段prompt:

一个女孩,微笑着,在秋天的金色树叶中跳舞,穿着浅蓝色的连衣裙。

而且随着prompt的变化,人物背景和身上的衣服也会随之发生改变。例如我们再换两句:

一个女孩,微笑着,在木屋里跳舞,穿着毛衣和长裤。

一个女孩,微笑着,在时代广场跳舞,穿着连衣裙般的白衬衫,长袖,长裤。

这便是阿里最新的一项研究------DreaMoving ,主打的就是让任何人随时随地地跳舞。

而且不仅是真人,就连卡通动漫人物也都是可以hold住的哦~

项目一出,也是引发了不少网友的关注,有人在看过效果之后直呼 "Unbelievable" ~

那么如此效果,这项研究又是如何做到的呢?

背后原理

虽然像Stable Video Diffusion和Gen2等文本到视频(text-to-video,T2V)模型的出现,在视频生成方面取得了突破性进展,但现在仍然有诸多挑战需要面对。

例如在数据集方面,目前缺乏开源的人类舞蹈视频数据集以及难以获得相应的精确文本描述,这就使得让模型们去生成多样性、帧一致性、时长更长的视频成为挑战。

并且在以人为中心的内容生成领域,生成结果的个性化和可控性也是关键因素。

面对这两大难点,阿里团队先从数据集着手做处理。

研究者们首先从互联网收集了大约1000个高质量的人类舞蹈视频。然后,他们将这些视频分割成大约6000个短视频(每个视频8至10秒),以确保视频片段中没有转场和特殊效果,这样有利于时间模块的训练。

此外,为了生成视频的文本描述,他们使用了Minigpt-v2作为视频字幕器(video captioner),特别采用了"grounding"版本,指令是详细描述这个帧。

基于关键帧中心帧生成的字幕代表了整个视频片段的描述,主要是准确描述主题和背景内容。

框架方面,阿里团队则是提出了一个名叫DreaMoving、基于Stable Diffusion的模型。

它主要由三个神经网络来构成,包括去噪U-Net(Denoising U-Net)、视频控制网络(Video ControlNet)和内容引导器(Content Guider)。

其中,Video ControlNet是在每U-Net块之后注入运动块(Motion Block)的图像控制网络,将控制序列(姿态或深度)处理为额外的时间残差。

Denoising U-Net是一种衍生的Stable-Diffusion U-Net,带有用于视频生成的运动块。

而Content Guider则是将输入文本提示和外观表情(如人脸)传输到内容嵌入中。

在如此操作之下,DreaMoving便可以在给定引导序列和简单的内容描述(如文本和参考图像)作为输入的情况下生成高质量、高保真度的视频。

不过很可惜的一点是,目前DreaMoving项目并没有开源代码。

感兴趣的小伙伴可以先关注一波,坐等代码开源了~

参考链接:

1\][dreamoving.github.io/dreamoving/](https://link.juejin.cn?target=https%3A%2F%2Fdreamoving.github.io%2Fdreamoving%2F "https://dreamoving.github.io/dreamoving/") \[2\][arxiv.org/abs/2312.05...](https://link.juejin.cn?target=https%3A%2F%2Farxiv.org%2Fabs%2F2312.05107 "https://arxiv.org/abs/2312.05107") \[3\][twitter.com/ProperPromp...](https://link.juejin.cn?target=https%3A%2F%2Ftwitter.com%2FProperPrompter%2Fstatus%2F1734192772465258499 "https://twitter.com/ProperPrompter/status/1734192772465258499") \[4\][github.com/dreamoving/...](https://link.juejin.cn?target=https%3A%2F%2Fgithub.com%2Fdreamoving%2Fdreamoving-project "https://github.com/dreamoving/dreamoving-project")

相关推荐
redreamSo9 小时前
AI Daily | AI日报:Nature:超14%生物医学论文或由AI代写; Grok 4测试成绩优异,数据真实性引争议; 李飞飞:攻克空间智能,为AGI补拼图
程序员·aigc·资讯
三花AI1 天前
阿里开源 OmniAvatar:音频驱动数字人模型
开源·资讯
NocoBase1 天前
为什么越来越多 Airtable 用户开始尝试 NocoBase?
低代码·开源·资讯
redreamSo1 天前
AI Daily | AI日报:LinkedIn:90% 应用迁移,弃 Kafka 用 Northguard; 谷歌发布免费AI教育功能,重塑课堂!; 小扎143亿请新贵,Meta员工冰火两重天
程序员·aigc·资讯
不摸鱼1 天前
顶级AI评论员:算力狂飙撞墙后,AI的下一场革命靠什么?| 不摸鱼的独立开发者日报(第43期)
人工智能·开源·资讯
NocoBase11 天前
Airtable 的数据超出上限,3 种常见应对方式
低代码·开源·资讯
redreamSo11 天前
AI Daily | AI日报:Anthropic:主流AI模型或成“内鬼”; 微软发布Mu模型,小参数跑出10倍性能; 斯坦福2025 CS336课程全公开搓大模型
程序员·aigc·资讯
不摸鱼11 天前
前苹果设计主管:设计信条胜过设计原则,前者是决策工具,后者只是空话 | 不摸鱼的独立开发者日报(第33期)
人工智能·开源·资讯
不摸鱼13 天前
Jason Calacanis:美国创业黄金时代结束?顶尖人才正“逃离”硅谷 | 不摸鱼的独立开发者日报(第31期)
人工智能·开源·资讯
redreamSo15 天前
AI Daily | AI日报:摩尔线程冲刺国产GPU第一股; KAIST公布HBM4关键特性及长期路线图; 北京AIGC创投会推动文旅与AI融合
程序员·aigc·资讯