AI视频生成:Google发布时空扩散大模型Lumiere

"神说:'要有光!' 于是就有了光。",这句话来自《圣经》旧约《创世纪》的第一章。

Google新发布的这个AI视频模型取名为Lumiere,这是一个法语词,本意就是光。由此可见Google对这个模型是赋予了很多期望的,当然我们这些围观群众也很期待。

效果展示

废话不多说,先看效果吧。

是不是效果很炸裂,Lumiere现在能生成5秒共80帧的视频,比我之前使用的Stable Video Diffusion多一秒,而且画面看起来更加稳定,动作比较连贯。

对于网络比较强大的同学,可以到Github这里看下完整的效果演示:lumiere-video.github.io/

Lumiere介绍

Google Lumiere是一种基于文本到视频的扩散模型,旨在实现从文字描述直接生成展现真实、多样且连贯动作的高质量视频。告别传统的绿幕技术和繁琐的手动动画过程,Lumiere让你只需通过文字描绘场景与动态,就能创造出流畅自然、引人入胜的视频内容。这款智能模型经由海量文本和视频数据训练而成,使得文字创意能够迅速转化为视觉盛宴。

时空U-Net架构是Lumiere的核心技术亮点。不同于现有的逐帧或关键帧合成后进行时间分辨率提升的视频模型,Lumiere一次性处理即可生成整个视频的时间长度,确保了全局时间上的连续性和一致性。这一创新极大地提高了视频合成的质量,消除了过渡不自然的问题,为用户带来前所未有的创作体验。

使用Google Lumiere的好处多方面体现:

  1. 释放无尽想象:无论是幻想中的奇幻世界还是历史事件的再现,只要用文字描绘出来,Lumiere都有能力将之生动呈现出来,让想象力插上翅膀飞翔。
  2. 强化叙事表达:不论是教育演示、社交媒体分享还是个人短片制作,Lumiere所生成的精美绝伦的AI视频画面都能显著提升作品的表现力与吸引力。
  3. 全民参与创作:消除复杂视频剪辑技术的难度,Lumiere让没有专业影视背景的人也能涉足视频创作领域,尽情探索视觉故事的无限可能。

Lumiere的能力

那么Lumiere具体有哪些能力呢?

文生视频

用户通过文字描述(也就是提示词)指示Limiere生成视频。我之前介绍过的Runway也支持这种方式。

图生视频

上传一张图片,再加上提示词,然后生成视频。这个能力很强,目前开源的Stable Video Diffusion只能根据图片生成视频,不能附加提示词,全靠模型猜测。虽然Runway也支持图片加提示词生成视频,但是感觉效果一般。

多种风格视频

这个有点像SDXL的多种风格图片生成能力,但是Lumiere可以生成视频。用户可以从"贴纸"、"线条"、"平面卡通"、"水彩"、"荧光"、"3D金属质感"以及"3D渲染"这七种不同的素材风格中进行选择,并根据自身需求进行灵活调整。

影图效果(Cinemagraphs)

用户可以圈定一小块区域,只让这一部分的内容动起来。比如只让火堆燃烧而天上的云不动。

Cinemagraphs 是一种视觉艺术形式,它巧妙地融合了静态图片和动态元素,创造出介于照片与视频之间的独特视觉体验。Cinemagraphs 在时尚界尤其受到青睐,常被用于广告宣传、社交媒体内容创作以及各类艺术表达之中,成为现代数字媒体中引人注目的创新交流工具。

视频风格化

用户能够改变运动中物体的材质,以实现某些风格化的效果。

视频局部重绘

用户可以使用蒙版盖住一部分视频区域,然后Lumiere会重新绘制这部分,并与周围的画面很好的融合。

怎么使用Lumiere

目前,Google Lumiere尚处于研发阶段,并未面向公众开放。但研究团队正紧锣密鼓地对模型进行测试和优化,期待未来能有更多用户接触到这款前沿的AI工具。

请持续关注后续文章以获取最新进展,并把握可能出现的beta测试机会,共同见证这场由Google Lumiere引领的视频创作革命。


很多大佬预测2024年将迎来AI视频领域的大爆发,手机制作电影或许不再遥远,关注"萤火遛AI",让我们一起拥抱这个伟大的AI时代!

相关推荐
Wen.py.java9 分钟前
Python商务数据分析知识专栏(六)——Python数据分析的应用④Python数据分析实训
人工智能·python·数据分析
不要em0啦13 分钟前
PyTorch - 神经网络基础
人工智能·pytorch·神经网络
pictoexcel36 分钟前
名片批量转换为结构化Excel注意的事项
人工智能·深度学习·神经网络·机器学习·ocr·excel
天狼IoT1 小时前
【AIGC自动化编程技巧笔记】一、起步
aigc·自动化编程
三花AI1 小时前
对标 GPT-4o 的开源实时语音多模态模型:Moshi
人工智能·gpt·语言模型·语音识别
Hugo_Hoo1 小时前
构建LangChain应用程序的示例代码:53、利用多模态大型语言模型在RAG应用中处理混合文档的示例
人工智能·langchain·ai编程
人工智能小豪2 小时前
LLM大模型企业应用实战-----为Langchain Agent添加记忆功能
人工智能·langchain·大模型·llm·私有化部署·产品经理·ai大模型
Elfin_z2 小时前
【深度学习练习】心脏病预测
人工智能·深度学习
山东仁科2 小时前
现代农业利器:土壤检测仪器的应用与未来
人工智能·土壤监测
迅腾文化2 小时前
品牌推广的深层逻辑:自我提升与市场认同的和谐共生
大数据·人工智能·物联网·信息可视化·媒体