有个读者深夜问了我一个问题,让我思考了一个深夜。
一年前,我写过一篇文章叫《我可能要给鼓吹AI的那些人,浇盆凉水了》。当时ChatGPT很火,整个网络都把AI吹上了天。我则唱反调,因为我就处在这个行业的底层,可谓知冷知热。不过,我当时并没有否定AI,只是表达AI并没有传说的那般无敌,谈不上让各行各业纷纷失业。首先,AI的门槛很高,基本是头部企业的专属,距离普通大众还是很远。另外,通用模型想要落地,必须要结合垂直行业,还有一段很长的路要走。为此我还举了3个现实案例,从算法算力、场景、数据来说明情况。
一年后的今天,这个提问再次引发了我的思考。
我想说,AI的前景依然是美好的,但它的发展速度却远远超出了人们的预期,即:要很久以后才会发生的事情,往往转眼就出现了。
一切皆数字:视频生成是必然结果
继生成式文字、图片之后,生成式视频又火了。其实,这从IT人看来,是必然的,并没有什么大惊小怪的。因为不管是文字、图片,还是音视频,在计算机中都是以数字的形式存储的。
比如,你看到的是大写字母"A",其实在电脑里存的是65。再比如,你看到的是一张图片。其实,它也是以数字形式存储的。音频视频都是这样。这一点,我也在文章《仅凭1和0,电脑如何展现出多彩的世界?》中讲过。
所以啊,一切媒体的本质都是数字。既然文字可以通过AI生成,而且效果还很好。那么,图片也可以。视频当然也可以,它不过就是图片加了一个时间维度而已。
虽然理论可行,然而现实中需要克服很多问题,包括设备上的、技术上的。比如,你生成的图片,得合情合理啊。
连续合理:视频生成难度更大
我记得,去年很多平台都说,自己的多模态大模型有一项功能,那就是可以指出一张不合理的图片存在什么问题。比如,一张人身狗头的图片,不合理之处在于人的身体不可能长着一张狗头。
其实,这并不是什么特意发布的功能。而是生成过程中,必须要做的一步校验。如果这一步验证都没有,可以说AI生成的内容没有用(特意要求除外)。
看下面的这个视频生成的案例。这是让AI生成一群在路边玩闹的小狗。乍一看像是路边实录。但是你仔细看,视频中一会儿三只狗,一会儿四只狗。有时候一个狗会突然出现,有时候又进入了另一个狗的身体里消失不见。
这很诡异,甚至可以归类为灵异事件,显然是不符合常理的。实际上,现实的训练数据,可能会发生一只狗被另一只狗完全挡住。但是不会出现两者融为一体的情况。
因此,AI要花时间和经历去进行合理性的检测和改正。
再列举一个类似的情况,比如你让AI生成一段,小孩吃饼干的视频。那么,根据常理,手里饼干肯定是越吃越小,小孩的肚子则会越吃越大。这时候,AI生成可能会出现饼干永远都吃不完的现象。这在人类导演设计时会被考虑,但AI自己生成时则需要自动完成。
这些限制,会导致AI需要依托复杂的算法和强大的算力做弥补。这也是检测一个AI是否足够健全的小技巧。同时,也是我说的,它的出现,需要一个过程。
案例展播:效果出人意料
然而现实情况是,这些问题已经攻克了。
比如OpenAI的Sora,它就可以跟你的描述,生成一段一分钟的视频,而且视频也合情合理。
比如,你告诉AI,让它生成一段视频,要求如下:一群纸飞机,在茂密的丛林中翩翩起舞,在树林中穿梭,就像候鸟一样。
结果,它真的就生成了。
如果说候鸟在丛林中穿梭,这并不稀奇,因为现实中有很多这种视频。但是,纸飞机像候鸟一样穿梭,这是不存在的。不过AI却可以生成。我们看到,不管是形态还是动作,纸飞机做到了和候鸟一样的飞行效果。它实现了虚拟的生成式合理。
再举几个例子。
比如你做了一个很虚幻的梦,你想把它还原成视觉效果。那么,你可以告诉AI:请帮我创造了一个超现实的梦境,一条长长的隧道,空气中弥漫着超凡脱俗的能量。
这种感觉的视觉还原,通常是需要一个团队合作才能做得出来。比如需要导演、编剧、特效师等角色的配合,甚至得开好几个会议。但是,如果交给AI来做,将会很简单。
又或者,你喜欢动漫,也喜欢宇宙,那么同样可以根据描述创造出这个场景:一个动漫女孩,亚洲人,操作航天飞机驾驶舱的特写,卡通般的人物,迷人的徽章,闪亮的眼睛。
还有一种情况,那就是你有一张静态图片,但是你需要以这张图片为基础,拓展视频效果。那么这也是可以的。
静态图片是这样的:
视频效果是这样的:
小到你有一个汉堡包,懒得给它拍一个镜头,想让AI生成。
静态图片是这样的:
视频效果是这样的:
大到飞船的发射,错过了起飞瞬间,你想让AI给补充上。
静态图片是这样的:
视频效果是这样的:
它的原理是使用了短小的精品影片资料进行了训练,因此才可以将你的要求转换为影片级别的成品。这番巨大的投入,也决定了生成的时间长不了。因为生成时间越长,对合理性的要求也就越高。因此,即便是OpenAI的Sora,目前最长支持也仅仅是60秒。
平台差异:参差不齐,差别巨大
到这里,我会主动跟大家交代一个问题,那就是实际效果如何。
啥?你上面说的都是假的吗?
上面的素材,都是取自官网。我们都知道,官网和样板的案例,那是宣传片,都是最完美的。你一用起来,完全不是那回事,就像是国内方便面的外包装图案和实物。
我们不能说存在几个例子是完美的,它就是完美的。具体还得看是否能被我们所用。
等到要真的使用时,平台就变得很关键了。同样都是免费AI生成平台,差别真的很大。尤其是国内与国外,头部企业和普通企业。
比如,我想让AI生成一个"守株待兔"的故事。先选择了国内某个头部平台。
呵呵,文不对题吗?其实并不是,出现这个结果,纯粹属于我不会问。
在此也提醒大家,对生成式AI的提问,不要想当然,不能按照你的理解去问,需要按照AI能理解的方式来问。这里面还有一个专业的名词叫:Prompt(提示语)。选平台固然重要,会问也很重要。
你要尽量清楚地描述实际场景,因为AI对"守株待兔"的理解很模糊,它不一定知道这个故事。即便知道,它也不知道你具体想要什么。因此,我们需要换一种问法。
我把守株待兔的故事讲给它听,并让它生成一张故事配图。
啊?大哥,兔子和农民是分开的。
到这里,可能你会觉得,啥呀,啥呀?AI都是骗人的,还来骗我。
其实,我觉得依然是问法不对。咱要描述场景啊,别讲故事了。稍微修改一下Prompt:一个中国古代的农民,守在田边的树桩旁发愣,远处是长满杂草的农田。
噗......樱桃小丸子爷爷都出来了。这让我很想做几期搞笑的生成过程,肯定比做科普受众要广。
不要放弃,我说过,平台之间的差距是很大的,我们换国外的平台,例如Stable。
到Stable上,你用"守株待兔"肯定白瞎,我们甚至还得将中文翻译成英文。
Prompt如下:A farmer from ancient China stood by a tree stump beside the field, lost in thought. In the distance is a field covered with weeds.
看结果:
我觉得,第一张图更符合意境。那么,我们就用它来继续生成视频。
首先上传这张图片,然后再进行一些设置,比如镜头旋转之类的,怎样好玩怎样设置。
其实,你也可以直接写下一段话,从文本描述直接生成视频。但是,我还是建议先来生成一个图片,看看效果。否则,周期太长,最后不满意,容易浪费时间。配置好后,点击Generate生成,即可产生视频。
看起来,还不错吧?这个镜头转场,并不是图片的水平移动,山脉、树桩、草地,都进行了远与近的视觉转换。也算是比较恰当地体现了农夫等待兔子的那种落寞。
机遇挑战:视频处理更加简单
视频生成,大体就是这么一个流程,这么一个东西。没有讲技术相关的内容,主要希望大家对它能有一个基础的横向认识。
它可以做的工作还有很多,涉及的行业也比较广。总结起来,会影响到有视频制作需求的行业。比如影视、广告、自媒体视频创作。尤其在短视频方面,现在网络流量的80%是视频流量。包括你我在内,只要具备看短视频的条件,基本不会去看图文。
现在全球都在降本增效。从上面我们可以看出,它降本增效的力度是很大的。在某些场景下,甚至能替代一个团队,并且没有任何沟通成本,利用AI,可能真的能实现"一人企业"。
真的,我们回想一下,以前电影制作一个特效是什么概念。我们不乏从新闻中看到,某某电影大制作,花了上千万耗时两年,制作出一个和人类一样灵活的机器人。而现在,似乎你我都可以制作了。复杂吗?上传一段视频呗!
总结:全民AI时代慢慢到来
这一次,还有一个显著的变化,那就是AI开始走到田间地头了。它不再是大厂和贵族的特权。你我皆可用,甚至说不仅仅是用,即便你想制作一个属于自己的应用,或者说就为了自己用去做一个,也不是什么难事。比如字节新出的coze这类平台,提供了全民皆可做AI的能力。我也写过文章《字节新出的Coze,让AI简单得像扣扣子》解析,有兴趣的可以了解一下。
最后,做一下总结。
关于市场前景。前景肯定是有的,上面说了那么多,如果你依然觉得它没用,那......那再看一遍吧,前景是很明显的。
关于技术水平。目前的技术水平差别较大,是呈阶梯状的,甚至是断崖状的。可能直到现在,还有人说AI只是一个概念。这些人,没有接触到一些前沿的信息。或者认为那是资本的运作,是炒作。当然,我们也不能看到一个特例,就认为它遍地都是了。不可否认的是,视频的AI生成,已经在快速成型,而且效果显著。似乎视频生成,是AI里最后一块蛋糕了。文字、图片、音频、视频都有了,后面还能生成什么呢?
关于危机感。危机感肯定是有的。每一次技术革命,都会引发大家思考这个问题。不要说普通人,我一个专业写AI程序的人,都有危机感。但是我还是那个观点,AI是替代人类劳动的,不是替代人的。不管是生成图片、视频,还是生成聊天内容,它都是人类的一种弥补。它永远代替不了人类。从情感上,它代替不了你的家人、朋友。从劳动上,它就算做得最好,也只能作为其中一个环节。即便它有37度的体温,也没有真正意义上心灵的温度。
技术已经摆在这里的,关于它更多的应用场景,想必在每个行业都能开出不同的花。愿我们人类,不卑不亢,平静面对。