智谱 AI 开源视频生成模型CogVideoX：单张 4090 显卡即可推理

随着大型模型技术的持续发展，视频生成技术正逐步走向成熟。以Sora、Gen-3等闭源视频生成模型为代表的技术，正在重新定义行业的未来格局。

而近几个月，国产的AI视频生成模型也是层出不穷,像是快手可灵、字节即梦、智谱清影、Vidu、PixVerse V2 等。

就在近日，智谱AI秉承"以先进技术，服务全球开发者"的理念，宣布将与"清影"同源的视频生成模型------CogVideoX开源，以期让每一位开发者、每一家企业都能自由地开发属于自己的视频生成模型，从而推动整个行业的快速迭代与创新发展。

CogVideoX是什么？

CogVideoX是智谱AI最新推出的开源AI视频生成模型，与智谱AI的商业产品"清影"同源。

CogVideoX支持英文提示词，能生成6秒长、每秒8帧、分辨率为720*480的视频。模型推理需16---36GB显存，目前不支持量化推理和多卡推理。项目还包括3D Causal VAE组件用于视频重建，以及丰富的示例和工具，包括CLI/WEB Demo、在线体验、API接口示例和微调指南。

CogVideoX-2B的提示词上限为226个token，视频长度为6秒，帧率为8帧/秒，视频分辨率为720*480。现在主流的AI视频，全部都是闭源的，有一个说是开源的Open-Sora，说实话实测下来的效果也是差强人意。而CogVideoX的效果虽然和主流的闭源模型尚存在一些差距，但是总的来讲还是值得使用的。

简单来说，CogVideoX是一个能够将你的文字直接转换成视频的神奇工具。这次的CogVideoX-2B模型，不仅视频生成能力惊人，而且对电脑配置的要求并不高，让普通用户也能轻松上手。

模型亮点

CogVideoX-2B的亮点可不少。生成视频时，你需要准备18GB的GPU内存（如果使用SAT技术），而使用diffusers的话，则需要36GB，但据说这个要求很快就会得到优化。如果你想要自己动手调教这个模型，那么40GB的GPU内存是必不可少的。生成的视频长度为6秒，分辨率为720 * 480，帧率为8帧/秒。目前，它还不支持量化推理和多卡推理，但这并不影响它在视频生成技术上的重大意义。

专家 Transformer

使用VAE的编码器将视频压缩至潜在空间，然后将潜在空间分割成块并展开成长的序列嵌入z_vision。同时，我们使用T5，将文本输入编码为文本嵌入z_text，然后将z_text和z_vision沿序列维度拼接。拼接后的嵌入被送入专家Transformer块堆栈中处理。最后，我们反向拼接嵌入来恢复原始潜在空间形状，并使用VAE进行解码以重建视频。

Data

视频生成模型训练需筛选高质量视频数据，以学习真实世界动态。视频可能因人工编辑或拍摄问题而不准确。为此，团队开发了负面标签来识别和排除低质量视频，如过度编辑、运动不连贯、质量低下、讲座式、文本主导和屏幕噪音视频。通过video-llama训练的过滤器，我们标注并筛选了20,000个视频数据点。

同时，计算光流和美学分数，动态调整阈值，确保生成视频的质量。视频数据通常没有文本描述，需要转换为文本描述以供文本到视频模型训练。现有的视频字幕数据集字幕较短，无法全面描述视频内容。

团队提出了一种从图像字幕生成视频字幕的管道，并微调端到端的视频字幕模型以获得更密集的字幕。这种方法通过Panda70M模型生成简短字幕，使用CogView3模型生成密集图像字幕，然后使用GPT-4模型总结生成最终的短视频。

还微调了一个基于CogVLM2-Video和Llama 3的CogVLM2-Caption模型，使用密集字幕数据进行训练，以加速视频字幕生成过程。

实例展示

一艘精致的木制玩具船，桅杆和船帆上雕刻着复杂的图案，在模拟海浪的蓝色长毛绒地毯上平稳地滑行。船身漆成浓郁的棕色，并带有小窗户。地毯柔软而有质感，提供了一个完美的背景，就像一片广阔的海洋。船的周围环绕着各种玩具和儿童用品，暗示着一个充满童趣的环境。这个场景捕捉到了童年的天真和想象力，玩具船的旅程象征着在异想天开的室内环境中的无尽冒险。

镜头跟在一辆白色复古越野车后面，车顶有黑色行李架，越野车在陡峭的山坡上沿着松树环绕的陡峭土路快速行驶，轮胎上的尘土飞扬，阳光照在越野车上，越野车在土路上快速行驶，给整个场景投下了温暖的光辉。土路缓缓弯向远方，看不到其他车辆。道路两旁的树木都是红杉，还有零星的绿色植物。从后方看，汽车轻松地沿着弯道行驶，仿佛在崎岖的地形上行驶。土路本身被陡峭的丘陵和山脉环绕，头顶是晴朗的蓝天和飘渺的白云。

在一个饱受战争蹂躏的城市，废墟和残垣断壁诉说着满目疮痍，在这个令人心碎的背景下，一个凄美的特写镜头定格了一个年轻的女孩。她的脸上沾满了灰烬，无声地证明着周围的混乱。她的眼睛里闪烁着悲伤和坚韧，捕捉到了这个因冲突而失去天真世界的原始情感。

小结：智谱清影引领视频生成技术新潮流

CogVideoX-2B的开源，无疑是在视频生成技术上的一大步。它让普通人也能轻松制作出高质量的视频内容，而且开源这件事，让全球的开发者和研究者都能参与到这个技术的共享和进步中来。

而智谱清影的开源举措，不仅刷新了视频生成技术的边界，也为技术爱好者开辟了新的学习天地。当前，视频生成领域充满活力，似乎昭示着国内AI视频技术即将迈入全新时代。智谱清影的这一策略，无疑将其置于视频生成领域的先锋地位，未来的前景令人翘首以待。此次行动不仅是技术上的决断，更是对开源共享信念的践行，它传递出一个信息：技术的未来属于每一个愿意开源和分享的企业与个人。期待不久的将来，我们都能借助CogVideoX，创造出属于我们自己的视频生成奇迹。

而使用推理大模型，怎么能少了一张好用的4090显卡呢？

在这小编向大家推荐一款来自UCloud优刻得的一款4090云服务器，相比较于市面上的一些GPU共享算力平台的资源，不仅价格实惠，性价比高，性能强劲的同时还拥有独立IP、预装主流大模型及环境镜像，支持7X24的小时的售后服务。同时，UCloud还推出了9.9元/天的4090特惠，方便大家体验使用价格非常香，可以放心上车！

高性价比GPU算力：https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_0806_shemei