通俗讲解:AI生成视频是什么|效果如何|对什么行业有影响?

有个读者深夜问了我一个问题,让我思考了一个深夜。

一年前,我写过一篇文章叫《我可能要给鼓吹AI的那些人,浇盆凉水了》。当时ChatGPT很火,整个网络都把AI吹上了天。我则唱反调,因为我就处在这个行业的底层,可谓知冷知热。不过,我当时并没有否定AI,只是表达AI并没有传说的那般无敌,谈不上让各行各业纷纷失业。首先,AI的门槛很高,基本是头部企业的专属,距离普通大众还是很远。另外,通用模型想要落地,必须要结合垂直行业,还有一段很长的路要走。为此我还举了3个现实案例,从算法算力、场景、数据来说明情况。

一年后的今天,这个提问再次引发了我的思考。

我想说,AI的前景依然是美好的,但它的发展速度却远远超出了人们的预期,即:要很久以后才会发生的事情,往往转眼就出现了。

一切皆数字:视频生成是必然结果

继生成式文字、图片之后,生成式视频又火了。其实,这从IT人看来,是必然的,并没有什么大惊小怪的。因为不管是文字、图片,还是音视频,在计算机中都是以数字的形式存储的。

比如,你看到的是大写字母"A",其实在电脑里存的是65。再比如,你看到的是一张图片。其实,它也是以数字形式存储的。音频视频都是这样。这一点,我也在文章《仅凭1和0,电脑如何展现出多彩的世界?》中讲过。

所以啊,一切媒体的本质都是数字。既然文字可以通过AI生成,而且效果还很好。那么,图片也可以。视频当然也可以,它不过就是图片加了一个时间维度而已。

虽然理论可行,然而现实中需要克服很多问题,包括设备上的、技术上的。比如,你生成的图片,得合情合理啊。

连续合理:视频生成难度更大

我记得,去年很多平台都说,自己的多模态大模型有一项功能,那就是可以指出一张不合理的图片存在什么问题。比如,一张人身狗头的图片,不合理之处在于人的身体不可能长着一张狗头。

其实,这并不是什么特意发布的功能。而是生成过程中,必须要做的一步校验。如果这一步验证都没有,可以说AI生成的内容没有用(特意要求除外)。

看下面的这个视频生成的案例。这是让AI生成一群在路边玩闹的小狗。乍一看像是路边实录。但是你仔细看,视频中一会儿三只狗,一会儿四只狗。有时候一个狗会突然出现,有时候又进入了另一个狗的身体里消失不见。

这很诡异,甚至可以归类为灵异事件,显然是不符合常理的。实际上,现实的训练数据,可能会发生一只狗被另一只狗完全挡住。但是不会出现两者融为一体的情况。

因此,AI要花时间和经历去进行合理性的检测和改正。

再列举一个类似的情况,比如你让AI生成一段,小孩吃饼干的视频。那么,根据常理,手里饼干肯定是越吃越小,小孩的肚子则会越吃越大。这时候,AI生成可能会出现饼干永远都吃不完的现象。这在人类导演设计时会被考虑,但AI自己生成时则需要自动完成。

这些限制,会导致AI需要依托复杂的算法和强大的算力做弥补。这也是检测一个AI是否足够健全的小技巧。同时,也是我说的,它的出现,需要一个过程。

案例展播:效果出人意料

然而现实情况是,这些问题已经攻克了。

比如OpenAI的Sora,它就可以跟你的描述,生成一段一分钟的视频,而且视频也合情合理。

比如,你告诉AI,让它生成一段视频,要求如下:一群纸飞机,在茂密的丛林中翩翩起舞,在树林中穿梭,就像候鸟一样。

结果,它真的就生成了。

如果说候鸟在丛林中穿梭,这并不稀奇,因为现实中有很多这种视频。但是,纸飞机像候鸟一样穿梭,这是不存在的。不过AI却可以生成。我们看到,不管是形态还是动作,纸飞机做到了和候鸟一样的飞行效果。它实现了虚拟的生成式合理。

再举几个例子。

比如你做了一个很虚幻的梦,你想把它还原成视觉效果。那么,你可以告诉AI:请帮我创造了一个超现实的梦境,一条长长的隧道,空气中弥漫着超凡脱俗的能量。

这种感觉的视觉还原,通常是需要一个团队合作才能做得出来。比如需要导演、编剧、特效师等角色的配合,甚至得开好几个会议。但是,如果交给AI来做,将会很简单。

又或者,你喜欢动漫,也喜欢宇宙,那么同样可以根据描述创造出这个场景:一个动漫女孩,亚洲人,操作航天飞机驾驶舱的特写,卡通般的人物,迷人的徽章,闪亮的眼睛。

还有一种情况,那就是你有一张静态图片,但是你需要以这张图片为基础,拓展视频效果。那么这也是可以的。

静态图片是这样的:

视频效果是这样的:

小到你有一个汉堡包,懒得给它拍一个镜头,想让AI生成。

静态图片是这样的:

视频效果是这样的:

大到飞船的发射,错过了起飞瞬间,你想让AI给补充上。

静态图片是这样的:

视频效果是这样的:

它的原理是使用了短小的精品影片资料进行了训练,因此才可以将你的要求转换为影片级别的成品。这番巨大的投入,也决定了生成的时间长不了。因为生成时间越长,对合理性的要求也就越高。因此,即便是OpenAI的Sora,目前最长支持也仅仅是60秒。

平台差异:参差不齐,差别巨大

到这里,我会主动跟大家交代一个问题,那就是实际效果如何。

啥?你上面说的都是假的吗?

上面的素材,都是取自官网。我们都知道,官网和样板的案例,那是宣传片,都是最完美的。你一用起来,完全不是那回事,就像是国内方便面的外包装图案和实物。

我们不能说存在几个例子是完美的,它就是完美的。具体还得看是否能被我们所用。

等到要真的使用时,平台就变得很关键了。同样都是免费AI生成平台,差别真的很大。尤其是国内与国外,头部企业和普通企业。

比如,我想让AI生成一个"守株待兔"的故事。先选择了国内某个头部平台。

呵呵,文不对题吗?其实并不是,出现这个结果,纯粹属于我不会问。

在此也提醒大家,对生成式AI的提问,不要想当然,不能按照你的理解去问,需要按照AI能理解的方式来问。这里面还有一个专业的名词叫:Prompt(提示语)。选平台固然重要,会问也很重要。

你要尽量清楚地描述实际场景,因为AI对"守株待兔"的理解很模糊,它不一定知道这个故事。即便知道,它也不知道你具体想要什么。因此,我们需要换一种问法。

我把守株待兔的故事讲给它听,并让它生成一张故事配图。

啊?大哥,兔子和农民是分开的。

到这里,可能你会觉得,啥呀,啥呀?AI都是骗人的,还来骗我。

其实,我觉得依然是问法不对。咱要描述场景啊,别讲故事了。稍微修改一下Prompt:一个中国古代的农民,守在田边的树桩旁发愣,远处是长满杂草的农田。

噗......樱桃小丸子爷爷都出来了。这让我很想做几期搞笑的生成过程,肯定比做科普受众要广。

不要放弃,我说过,平台之间的差距是很大的,我们换国外的平台,例如Stable。

到Stable上,你用"守株待兔"肯定白瞎,我们甚至还得将中文翻译成英文。

Prompt如下:A farmer from ancient China stood by a tree stump beside the field, lost in thought. In the distance is a field covered with weeds.

看结果:

我觉得,第一张图更符合意境。那么,我们就用它来继续生成视频。

首先上传这张图片,然后再进行一些设置,比如镜头旋转之类的,怎样好玩怎样设置。

其实,你也可以直接写下一段话,从文本描述直接生成视频。但是,我还是建议先来生成一个图片,看看效果。否则,周期太长,最后不满意,容易浪费时间。配置好后,点击Generate生成,即可产生视频。

看起来,还不错吧?这个镜头转场,并不是图片的水平移动,山脉、树桩、草地,都进行了远与近的视觉转换。也算是比较恰当地体现了农夫等待兔子的那种落寞。

机遇挑战:视频处理更加简单

视频生成,大体就是这么一个流程,这么一个东西。没有讲技术相关的内容,主要希望大家对它能有一个基础的横向认识。

它可以做的工作还有很多,涉及的行业也比较广。总结起来,会影响到有视频制作需求的行业。比如影视、广告、自媒体视频创作。尤其在短视频方面,现在网络流量的80%是视频流量。包括你我在内,只要具备看短视频的条件,基本不会去看图文。

现在全球都在降本增效。从上面我们可以看出,它降本增效的力度是很大的。在某些场景下,甚至能替代一个团队,并且没有任何沟通成本,利用AI,可能真的能实现"一人企业"。

真的,我们回想一下,以前电影制作一个特效是什么概念。我们不乏从新闻中看到,某某电影大制作,花了上千万耗时两年,制作出一个和人类一样灵活的机器人。而现在,似乎你我都可以制作了。复杂吗?上传一段视频呗!

总结:全民AI时代慢慢到来

这一次,还有一个显著的变化,那就是AI开始走到田间地头了。它不再是大厂和贵族的特权。你我皆可用,甚至说不仅仅是用,即便你想制作一个属于自己的应用,或者说就为了自己用去做一个,也不是什么难事。比如字节新出的coze这类平台,提供了全民皆可做AI的能力。我也写过文章《字节新出的Coze,让AI简单得像扣扣子》解析,有兴趣的可以了解一下。

最后,做一下总结。

关于市场前景。前景肯定是有的,上面说了那么多,如果你依然觉得它没用,那......那再看一遍吧,前景是很明显的。

关于技术水平。目前的技术水平差别较大,是呈阶梯状的,甚至是断崖状的。可能直到现在,还有人说AI只是一个概念。这些人,没有接触到一些前沿的信息。或者认为那是资本的运作,是炒作。当然,我们也不能看到一个特例,就认为它遍地都是了。不可否认的是,视频的AI生成,已经在快速成型,而且效果显著。似乎视频生成,是AI里最后一块蛋糕了。文字、图片、音频、视频都有了,后面还能生成什么呢?

关于危机感。危机感肯定是有的。每一次技术革命,都会引发大家思考这个问题。不要说普通人,我一个专业写AI程序的人,都有危机感。但是我还是那个观点,AI是替代人类劳动的,不是替代人的。不管是生成图片、视频,还是生成聊天内容,它都是人类的一种弥补。它永远代替不了人类。从情感上,它代替不了你的家人、朋友。从劳动上,它就算做得最好,也只能作为其中一个环节。即便它有37度的体温,也没有真正意义上心灵的温度。

技术已经摆在这里的,关于它更多的应用场景,想必在每个行业都能开出不同的花。愿我们人类,不卑不亢,平静面对。

相关推荐
车载诊断技术26 分钟前
电子电气架构 --- 什么是EPS?
网络·人工智能·安全·架构·汽车·需求分析
KevinRay_31 分钟前
Python超能力:高级技巧让你的代码飞起来
网络·人工智能·python·lambda表达式·列表推导式·python高级技巧
跃跃欲试-迪之36 分钟前
animatediff 模型网盘分享
人工智能·stable diffusion
Captain823Jack1 小时前
nlp新词发现——浅析 TF·IDF
人工智能·python·深度学习·神经网络·算法·自然语言处理
被制作时长两年半的个人练习生1 小时前
【AscendC】ReduceSum中指定workLocal大小时如何计算
人工智能·算子开发·ascendc
Captain823Jack2 小时前
w04_nlp大模型训练·中文分词
人工智能·python·深度学习·神经网络·算法·自然语言处理·中文分词
Black_mario2 小时前
链原生 Web3 AI 网络 Chainbase 推出 AVS 主网, 拓展 EigenLayer AVS 应用场景
网络·人工智能·web3
Aileen_0v02 小时前
【AI驱动的数据结构:包装类的艺术与科学】
linux·数据结构·人工智能·笔记·网络协议·tcp/ip·whisper
数信云 DCloud2 小时前
实力认可 | 通付盾入选《ISC.AI 2024创新能力全景图谱》五项领域
人工智能
itwangyang5202 小时前
AIDD - 从机器学习到深度学习:蛋白质-配体对接评分函数的进展
人工智能·深度学习·机器学习