这个名为“缅因猫”的新模型，打开了AI视频新赛道

今天给大家看一个好玩的。

我给大家介绍过许多AI视频创作工具，这些视频生成模型都是需要先生成视频，然后才能观看。

这已经成为大家的共识。

但大家看看下面这个AI视频模型，我刚开始生成，大概过了三秒，视频就直接播放了：

而且视频在播放的过程中，我可以随时介入修改视频的内容，比如让人物说话更亢奋一些：

可以明显看出，视频中的角色说话方式变了，然后我输入一个问题，让对方跟我们对话：

对方也会接着我输入的问题继续对话，看起来不像AI视频，更像是一个能跟你实时互动的视频角色。

这是最近一个叫做Catnip.AI的团队发布的视频生成模型「MaineCoon」，我也是幸运得拿到了邀请码，以上都是我初次尝试时看到的效果。

它和我以前给大家介绍的AI视频模型都不同，它是一款流式音视频模型。啥叫流式生成呢？简单说就是：边生成，边播放。

别的视频模型做不到吗？

这个时候就有同学要问了：不就是一边生成一边播放吗，其它视频模型做不到吗？

说实话，还真做不到。

因为现在的主流视频模型的方向都是向着"增强画面"这个方向走的，画面越好，自然生成所需要使用的时间就越多。

大家想想，一段10秒钟的视频，都需要5分钟左右才能生成完，自然也做不到边生成边播放了。

而开发MaineCoon模型的这个团队，为了达成这个效果也是做了许多努力。

流式媒体更像是即兴演员，只能根据上一帧画面来判断接下来该怎么演，所以需要极强的临场应变能力。

这个过程中如果出现一点小误差，下一帧就可能基于这个误差继续生成，继续按照错误的方式演下去，最终误差会像滚雪球一样越滚越大。

同时，它还要足够快，往往需要每秒稳定生成几十帧，并保证画面不崩，本身就是一件很矛盾的事情。

而且流式是实时发生的，生成后直接就呈现给用户，没有回炉重造的余地，任何一帧画面都会被用户立刻看到。

这样的内容连续生成十几分钟，真的很难保持稳定。

正是因为这些难点堆在一起，行业里才久久没有出现这样的模型，而一个只有10人的团队却做到了。

具体效果怎么样？

我的总体评价是：效果很惊艳，体验很新奇，但还有许多值得提升的空间。

我初次打开MaineCoon的官网时，觉得官网效果做得真不错，向下滑动时，这个猫咪还会向一边走开。

后来深入了解了以后发现，这个官网和测试网站居然都是他们用vibe coding的方式做完的。

因为他们团队只有10个人，然后用了两个月的时间，搓出了缅因猫这个流式音视频模型，估计也没有多余人手手搓官网。

了解完这个，我只能说一句：牛逼。

测试网站倒是还挺简单的，输入提示词创建场景，然后就可以直接开始播放视频了。

不知道是不是这个背景图片的关系，使用过程中我总有一种导演看监视器的感觉，视频里是演员在演戏，而我发送的指令就是对演员下的指令，让演员改变情绪或者换台词。

实际上，缅因猫与传统AI视频模型对比的话，也确实是这个意思。

接下来我把实际测试中，发现的这个模型不错的地方，给大家罗列一下：

1.三秒出画面

MaineCoon的核心设计理念是原生流式生成，从数据基础设施、训练框架、注意力模式、KV-Cache使用到推理部署，全链路围绕"实时"重新设计，而不是把现有模型改得更快。

根据官方提供的数据，输入提示词后1到3秒就可以开始出画面，随后就会不间断生成，画面可以顺畅播放。

不过我目前测试的话，并不是每次都可以快速出现画面的。我第一次用，确实3秒出画面，后面用的时候，偶尔十秒左右才开始播放。

我猜测是网络原因，因为之后测试时都是晚上了，用的人比较多，加上这个小团队也没啥成本购买更多服务器，有点慢也比较正常。

根据官方提供的信息得知，这个模型最高可以实现每秒47.5FPS。

而一般流媒体视频是每秒24到30帧，这个帧率已经超过了普通流媒体视频的播放帧率。

也就是只要跑起来，它理论上可以24小时不停歇地生成并播放。官方说目前只支持连续生成播放30分钟，但我觉得以后肯定可以实现24小时，只是稳定性上可能会有比较大的考验。

2.音画同步生成

这里我让角色从开心逐渐变得委屈，在情绪变化的情况下，声音仍然紧贴表情和嘴型。

这种协同变化的能力，才是让视频有活人感的关键。

这个时候就有人要说了：很多传统的AI视频模型不是也能音画同步生成吗？这有啥新鲜的。

其实音画同步生成这个东西，也是去年才出现的，还算比较新鲜。更何况，我们要考虑到这是边生成边播放。

也就是模型不仅要考虑画面，还要考虑音频，这其实就给模型增加了一个维度，会额外消耗性能，他们能在实现实时播放的同时还能解决音视频同步，本身就挺牛的。

3.中途交互控制

这个视频播放过程中，我分别让角色"笑出来"、"转头看一下左边"、"变得紧张"，视频都按照指令发生了改变。

同时画面也很自然，不会突然变化，而是说完当前话题之后，再做出相应的变化。

这个延迟时间大概是六七秒钟左右这样，虽然有一点点的延迟感，但为了保证画面流畅和话题平稳转换，也是可以理解的事情。

4.生成稳定性

根据官方介绍，这个模型可以连续生成30分钟的视频。现在用来测试的网站只开放了最长三分钟的生成，更长的效果后续应该会逐步开放。

我用下来发现，只要场景提示词写得巧妙一些的话，这三分钟的视频播放过程中，画面可以从头到尾保持稳定。

这其实非常难得，因为你用传统AI视频模型生成，一个10秒钟的时候，可能都需要抽卡个两三次才能得到自己想要的画面。

当然，前提是得提示词要写得巧妙一点，比如画面中不要有多余的元素，尽量少的展现背景画面等等。

我在使用过程中就遇到画面崩掉的情况，比如下面这个角色还在说话，但同时也在喝水，以及手和杯子重叠等问题。

但是瑕不掩瑜，概率崩坏相较于模型表现出来的性能，其实是可以接受的。

另外，我分别用SoulX和LiveAvatar以及缅因猫跑了同一个场景，前两个虽然也是实时生成的视频模型，但都是数字人模型，主要是根据输入的音频来实现对口型的画面生成。

而缅因猫是更接近传统AI视频模型的纯生成的模型，只是在此基础上加入了同步播放的功能。

从视频里也能很明显的看出它与另外两个模型的对比，前两个模式是只有主角会有画面变化，背景几乎无变化，有一点微小的变化，背景人物还直接分裂了。

而缅因猫则是视频生成，背景也会有变化，而且画面更加稳定，崩坏的地方更少。

放这个对比，也是为了展示一下，它和AI数字人视频生成的本质区别。一个是基于人物画像根据上传的音频来改变角色面部，一个是整幅画面都是完全生成的。

为什么要做"实时流式"视频模型？

这个时候就有同学要说了：做这个东西有什么意义吗，画质看起来也没现在的主流视频模型好啊。

确实，画质相比较主流模型要差一些，但它主打的本来就不是画质好，而是流式生成。

现在主流的AI视频模型都是先生成再播放，用户只能在生成前或生成后参与，在生成过程中就什么都做不了了。

这就好像在现实生活中拍戏，导演跟演员说演一下这段戏，然后导演就被锁在门外，等5分钟后门才打开，然后导演只能看表演的回放。

如果导演想要修改其中的某段戏，就只能让演员重新再演一遍。

实时流式生成更像真实的现场导戏场景，演员在表演过程中，你可以随时喊"表情更丰富些"，或者让他立刻说某个台词，演员也可以立即调整。

通过实时流式生成这种方式，AI视频就不再是一个生成完之后再看的成品，而是一个可以持续被影响的实时画面。

虽然听起来都是 AI 视频生成，但其实这已经是另外一个东西，适用场景也不同。

传统AI视频生成可以用在电影、短剧、广告等视频制作中，而缅因猫这种流式生成的视频，可以实时影响角色情绪、语气、动作和剧情走向等，所以可以在下面这些领域得到应用：

**1.AI视频客服：**可以根据客户的问题实时生成画面并解答。

**2.虚拟主播：**可以持续与弹幕互动，而不只是按照预设脚本输出内容。

**3.实时互动内容：**比如互动短剧，可以根据用户输入实时改变角色反应和剧情走向。

**4.教育和培训：**语言陪练、销售培训、面试模拟、心理陪伴等等，都可以从文字对话升级到面对面的实时互动。

而这些场景，则是传统的AI视频生成模式做不到的。

因为反馈速度从几分钟变成了几秒，AI视频就产生了质变，蜕变出了新的形态，也诞生了更多的应用方向。

总结一下

过去几年，AI视频的核心叙事一直是让视频更好看，这个阶段其实更注重内容生产，是为了帮创作者更快产出更好的内容。

而从MaineCoon可以看到的方向，是消费侧的改变，AI视频不再只是生成工具，而是互动媒介。

未来某些行业或许会因为MaineCoon产生一些变化，让许多内容固定的领域，变得可以互动，根据用户的反馈随时改变。

比如现在和豆包语音通话，以后也许就可以变成视频通话，豆包可以在另一头根据你说话的内容，实时做出动态表情和动作

MaineCoon现在还只是起步阶段，目前这个模型也才做了两个月，阿枫非常期待后续的更新迭代，毕竟他们团队实力强劲，未来可期(听说他们还在做一个更厉害的全新实时互动模型)~

如果你对AI角色、互动视频、虚拟陪伴、AI视频客服这类方向感兴趣，这个模型值得拿邀请码试一下。但也要有心理预期，它现在还是早期版本，惊喜和bug都会同时存在~