有个读者深夜问了我一个问题，让我思考了一个深夜。

一年前，我写过一篇文章叫《我可能要给鼓吹AI的那些人，浇盆凉水了》。当时ChatGPT很火，整个网络都把AI吹上了天。我则唱反调，因为我就处在这个行业的底层，可谓知冷知热。不过，我当时并没有否定AI，只是表达AI并没有传说的那般无敌，谈不上让各行各业纷纷失业。首先，AI的门槛很高，基本是头部企业的专属，距离普通大众还是很远。另外，通用模型想要落地，必须要结合垂直行业，还有一段很长的路要走。为此我还举了3个现实案例，从算法算力、场景、数据来说明情况。

一年后的今天，这个提问再次引发了我的思考。

我想说，AI的前景依然是美好的，但它的发展速度却远远超出了人们的预期，即：要很久以后才会发生的事情，往往转眼就出现了。

一切皆数字：视频生成是必然结果

继生成式文字、图片之后，生成式视频又火了。其实，这从IT人看来，是必然的，并没有什么大惊小怪的。因为不管是文字、图片，还是音视频，在计算机中都是以数字的形式存储的。

比如，你看到的是大写字母"A"，其实在电脑里存的是65。再比如，你看到的是一张图片。其实，它也是以数字形式存储的。音频视频都是这样。这一点，我也在文章《仅凭1和0，电脑如何展现出多彩的世界？》中讲过。

所以啊，一切媒体的本质都是数字。既然文字可以通过AI生成，而且效果还很好。那么，图片也可以。视频当然也可以，它不过就是图片加了一个时间维度而已。

虽然理论可行，然而现实中需要克服很多问题，包括设备上的、技术上的。比如，你生成的图片，得合情合理啊。

连续合理：视频生成难度更大

我记得，去年很多平台都说，自己的多模态大模型有一项功能，那就是可以指出一张不合理的图片存在什么问题。比如，一张人身狗头的图片，不合理之处在于人的身体不可能长着一张狗头。

其实，这并不是什么特意发布的功能。而是生成过程中，必须要做的一步校验。如果这一步验证都没有，可以说AI生成的内容没有用（特意要求除外）。

看下面的这个视频生成的案例。这是让AI生成一群在路边玩闹的小狗。乍一看像是路边实录。但是你仔细看，视频中一会儿三只狗，一会儿四只狗。有时候一个狗会突然出现，有时候又进入了另一个狗的身体里消失不见。

这很诡异，甚至可以归类为灵异事件，显然是不符合常理的。实际上，现实的训练数据，可能会发生一只狗被另一只狗完全挡住。但是不会出现两者融为一体的情况。

因此，AI要花时间和经历去进行合理性的检测和改正。

再列举一个类似的情况，比如你让AI生成一段，小孩吃饼干的视频。那么，根据常理，手里饼干肯定是越吃越小，小孩的肚子则会越吃越大。这时候，AI生成可能会出现饼干永远都吃不完的现象。这在人类导演设计时会被考虑，但AI自己生成时则需要自动完成。

这些限制，会导致AI需要依托复杂的算法和强大的算力做弥补。这也是检测一个AI是否足够健全的小技巧。同时，也是我说的，它的出现，需要一个过程。

案例展播：效果出人意料

然而现实情况是，这些问题已经攻克了。

比如OpenAI的Sora，它就可以跟你的描述，生成一段一分钟的视频，而且视频也合情合理。

比如，你告诉AI，让它生成一段视频，要求如下：一群纸飞机，在茂密的丛林中翩翩起舞，在树林中穿梭，就像候鸟一样。

结果，它真的就生成了。

如果说候鸟在丛林中穿梭，这并不稀奇，因为现实中有很多这种视频。但是，纸飞机像候鸟一样穿梭，这是不存在的。不过AI却可以生成。我们看到，不管是形态还是动作，纸飞机做到了和候鸟一样的飞行效果。它实现了虚拟的生成式合理。

再举几个例子。

比如你做了一个很虚幻的梦，你想把它还原成视觉效果。那么，你可以告诉AI：请帮我创造了一个超现实的梦境，一条长长的隧道，空气中弥漫着超凡脱俗的能量。

这种感觉的视觉还原，通常是需要一个团队合作才能做得出来。比如需要导演、编剧、特效师等角色的配合，甚至得开好几个会议。但是，如果交给AI来做，将会很简单。

又或者，你喜欢动漫，也喜欢宇宙，那么同样可以根据描述创造出这个场景：一个动漫女孩，亚洲人，操作航天飞机驾驶舱的特写，卡通般的人物，迷人的徽章，闪亮的眼睛。

还有一种情况，那就是你有一张静态图片，但是你需要以这张图片为基础，拓展视频效果。那么这也是可以的。

静态图片是这样的：

视频效果是这样的：

小到你有一个汉堡包，懒得给它拍一个镜头，想让AI生成。

静态图片是这样的：

视频效果是这样的：

大到飞船的发射，错过了起飞瞬间，你想让AI给补充上。

静态图片是这样的：

视频效果是这样的：

它的原理是使用了短小的精品影片资料进行了训练，因此才可以将你的要求转换为影片级别的成品。这番巨大的投入，也决定了生成的时间长不了。因为生成时间越长，对合理性的要求也就越高。因此，即便是OpenAI的Sora，目前最长支持也仅仅是60秒。

平台差异：参差不齐，差别巨大

到这里，我会主动跟大家交代一个问题，那就是实际效果如何。

啥？你上面说的都是假的吗？

上面的素材，都是取自官网。我们都知道，官网和样板的案例，那是宣传片，都是最完美的。你一用起来，完全不是那回事，就像是国内方便面的外包装图案和实物。

我们不能说存在几个例子是完美的，它就是完美的。具体还得看是否能被我们所用。

等到要真的使用时，平台就变得很关键了。同样都是免费AI生成平台，差别真的很大。尤其是国内与国外，头部企业和普通企业。

比如，我想让AI生成一个"守株待兔"的故事。先选择了国内某个头部平台。

呵呵，文不对题吗？其实并不是，出现这个结果，纯粹属于我不会问。

在此也提醒大家，对生成式AI的提问，不要想当然，不能按照你的理解去问，需要按照AI能理解的方式来问。这里面还有一个专业的名词叫：Prompt（提示语）。选平台固然重要，会问也很重要。

你要尽量清楚地描述实际场景，因为AI对"守株待兔"的理解很模糊，它不一定知道这个故事。即便知道，它也不知道你具体想要什么。因此，我们需要换一种问法。

我把守株待兔的故事讲给它听，并让它生成一张故事配图。

啊？大哥，兔子和农民是分开的。

到这里，可能你会觉得，啥呀，啥呀？AI都是骗人的，还来骗我。

其实，我觉得依然是问法不对。咱要描述场景啊，别讲故事了。稍微修改一下Prompt：一个中国古代的农民，守在田边的树桩旁发愣，远处是长满杂草的农田。

噗......樱桃小丸子爷爷都出来了。这让我很想做几期搞笑的生成过程，肯定比做科普受众要广。

不要放弃，我说过，平台之间的差距是很大的，我们换国外的平台，例如Stable。

到Stable上，你用"守株待兔"肯定白瞎，我们甚至还得将中文翻译成英文。

Prompt如下：A farmer from ancient China stood by a tree stump beside the field, lost in thought. In the distance is a field covered with weeds.

看结果：

我觉得，第一张图更符合意境。那么，我们就用它来继续生成视频。

首先上传这张图片，然后再进行一些设置，比如镜头旋转之类的，怎样好玩怎样设置。

其实，你也可以直接写下一段话，从文本描述直接生成视频。但是，我还是建议先来生成一个图片，看看效果。否则，周期太长，最后不满意，容易浪费时间。配置好后，点击Generate生成，即可产生视频。

看起来，还不错吧？这个镜头转场，并不是图片的水平移动，山脉、树桩、草地，都进行了远与近的视觉转换。也算是比较恰当地体现了农夫等待兔子的那种落寞。

机遇挑战：视频处理更加简单

视频生成，大体就是这么一个流程，这么一个东西。没有讲技术相关的内容，主要希望大家对它能有一个基础的横向认识。

它可以做的工作还有很多，涉及的行业也比较广。总结起来，会影响到有视频制作需求的行业。比如影视、广告、自媒体视频创作。尤其在短视频方面，现在网络流量的80%是视频流量。包括你我在内，只要具备看短视频的条件，基本不会去看图文。

现在全球都在降本增效。从上面我们可以看出，它降本增效的力度是很大的。在某些场景下，甚至能替代一个团队，并且没有任何沟通成本，利用AI，可能真的能实现"一人企业"。

真的，我们回想一下，以前电影制作一个特效是什么概念。我们不乏从新闻中看到，某某电影大制作，花了上千万耗时两年，制作出一个和人类一样灵活的机器人。而现在，似乎你我都可以制作了。复杂吗？上传一段视频呗！

总结：全民AI时代慢慢到来

这一次，还有一个显著的变化，那就是AI开始走到田间地头了。它不再是大厂和贵族的特权。你我皆可用，甚至说不仅仅是用，即便你想制作一个属于自己的应用，或者说就为了自己用去做一个，也不是什么难事。比如字节新出的coze这类平台，提供了全民皆可做AI的能力。我也写过文章《字节新出的Coze，让AI简单得像扣扣子》解析，有兴趣的可以了解一下。

最后，做一下总结。

关于市场前景。前景肯定是有的，上面说了那么多，如果你依然觉得它没用，那......那再看一遍吧，前景是很明显的。

关于技术水平。目前的技术水平差别较大，是呈阶梯状的，甚至是断崖状的。可能直到现在，还有人说AI只是一个概念。这些人，没有接触到一些前沿的信息。或者认为那是资本的运作，是炒作。当然，我们也不能看到一个特例，就认为它遍地都是了。不可否认的是，视频的AI生成，已经在快速成型，而且效果显著。似乎视频生成，是AI里最后一块蛋糕了。文字、图片、音频、视频都有了，后面还能生成什么呢？

关于危机感。危机感肯定是有的。每一次技术革命，都会引发大家思考这个问题。不要说普通人，我一个专业写AI程序的人，都有危机感。但是我还是那个观点，AI是替代人类劳动的，不是替代人的。不管是生成图片、视频，还是生成聊天内容，它都是人类的一种弥补。它永远代替不了人类。从情感上，它代替不了你的家人、朋友。从劳动上，它就算做得最好，也只能作为其中一个环节。即便它有37度的体温，也没有真正意义上心灵的温度。

技术已经摆在这里的，关于它更多的应用场景，想必在每个行业都能开出不同的花。愿我们人类，不卑不亢，平静面对。

通俗讲解：AI生成视频是什么|效果如何|对什么行业有影响？

一切皆数字：视频生成是必然结果

连续合理：视频生成难度更大

案例展播：效果出人意料

平台差异：参差不齐，差别巨大

机遇挑战：视频处理更加简单

总结：全民AI时代慢慢到来