随着大型模型技术的持续发展,视频生成技术正逐步走向成熟。以Sora、Gen-3等闭源视频生成模型为代表的技术,正在重新定义行业的未来格局。
而近几个月,国产的AI视频生成模型也是层出不穷,像是快手可灵、字节即梦、智谱清影、Vidu、PixVerse V2 等。
就在近日,智谱AI秉承"以先进技术,服务全球开发者"的理念,宣布将与"清影"同源的视频生成模型------CogVideoX开源,以期让每一位开发者、每一家企业都能自由地开发属于自己的视频生成模型,从而推动整个行业的快速迭代与创新发展。
CogVideoX是什么?
CogVideoX是智谱AI最新推出的开源AI视频生成模型,与智谱AI的商业产品"清影"同源。
CogVideoX支持英文提示词,能生成6秒长、每秒8帧、分辨率为720*480的视频。模型推理需16---36GB显存,目前不支持量化推理和多卡推理。项目还包括3D Causal VAE组件用于视频重建,以及丰富的示例和工具,包括CLI/WEB Demo、在线体验、API接口示例和微调指南。
CogVideoX-2B的提示词上限为226个token,视频长度为6秒,帧率为8帧/秒,视频分辨率为720*480。现在主流的AI视频,全部都是闭源的,有一个说是开源的Open-Sora,说实话实测下来的效果也是差强人意。而CogVideoX的效果虽然和主流的闭源模型尚存在一些差距,但是总的来讲还是值得使用的。
简单来说,CogVideoX是一个能够将你的文字直接转换成视频的神奇工具。这次的CogVideoX-2B模型,不仅视频生成能力惊人,而且对电脑配置的要求并不高,让普通用户也能轻松上手。
模型亮点
CogVideoX-2B的亮点可不少。生成视频时,你需要准备18GB的GPU内存(如果使用SAT技术),而使用diffusers的话,则需要36GB,但据说这个要求很快就会得到优化。如果你想要自己动手调教这个模型,那么40GB的GPU内存是必不可少的。生成的视频长度为6秒,分辨率为720 * 480,帧率为8帧/秒。目前,它还不支持量化推理和多卡推理,但这并不影响它在视频生成技术上的重大意义。
专家 Transformer
使用VAE的编码器将视频压缩至潜在空间,然后将潜在空间分割成块并展开成长的序列嵌入z_vision。同时,我们使用T5,将文本输入编码为文本嵌入z_text,然后将z_text和z_vision沿序列维度拼接。拼接后的嵌入被送入专家Transformer块堆栈中处理。最后,我们反向拼接嵌入来恢复原始潜在空间形状,并使用VAE进行解码以重建视频。
Data
视频生成模型训练需筛选高质量视频数据,以学习真实世界动态。视频可能因人工编辑或拍摄问题而不准确。为此,团队开发了负面标签来识别和排除低质量视频,如过度编辑、运动不连贯、质量低下、讲座式、文本主导和屏幕噪音视频。通过video-llama训练的过滤器,我们标注并筛选了20,000个视频数据点。
同时,计算光流和美学分数,动态调整阈值,确保生成视频的质量。视频数据通常没有文本描述,需要转换为文本描述以供文本到视频模型训练。现有的视频字幕数据集字幕较短,无法全面描述视频内容。
团队提出了一种从图像字幕生成视频字幕的管道,并微调端到端的视频字幕模型以获得更密集的字幕。这种方法通过Panda70M模型生成简短字幕,使用CogView3模型生成密集图像字幕,然后使用GPT-4模型总结生成最终的短视频。
还微调了一个基于CogVLM2-Video和Llama 3的CogVLM2-Caption模型,使用密集字幕数据进行训练,以加速视频字幕生成过程。
实例展示
一艘精致的木制玩具船,桅杆和船帆上雕刻着复杂的图案,在模拟海浪的蓝色长毛绒地毯上平稳地滑行。船身漆成浓郁的棕色,并带有小窗户。地毯柔软而有质感,提供了一个完美的背景,就像一片广阔的海洋。船的周围环绕着各种玩具和儿童用品,暗示着一个充满童趣的环境。这个场景捕捉到了童年的天真和想象力,玩具船的旅程象征着在异想天开的室内环境中的无尽冒险。
镜头跟在一辆白色复古越野车后面,车顶有黑色行李架,越野车在陡峭的山坡上沿着松树环绕的陡峭土路快速行驶,轮胎上的尘土飞扬,阳光照在越野车上,越野车在土路上快速行驶,给整个场景投下了温暖的光辉。土路缓缓弯向远方,看不到其他车辆。道路两旁的树木都是红杉,还有零星的绿色植物。从后方看,汽车轻松地沿着弯道行驶,仿佛在崎岖的地形上行驶。土路本身被陡峭的丘陵和山脉环绕,头顶是晴朗的蓝天和飘渺的白云。
在一个饱受战争蹂躏的城市,废墟和残垣断壁诉说着满目疮痍,在这个令人心碎的背景下,一个凄美的特写镜头定格了一个年轻的女孩。她的脸上沾满了灰烬,无声地证明着周围的混乱。她的眼睛里闪烁着悲伤和坚韧,捕捉到了这个因冲突而失去天真世界的原始情感。
小结:智谱清影引领视频生成技术新潮流
CogVideoX-2B的开源,无疑是在视频生成技术上的一大步。它让普通人也能轻松制作出高质量的视频内容,而且开源这件事,让全球的开发者和研究者都能参与到这个技术的共享和进步中来。
而智谱清影的开源举措,不仅刷新了视频生成技术的边界,也为技术爱好者开辟了新的学习天地。当前,视频生成领域充满活力,似乎昭示着国内AI视频技术即将迈入全新时代。智谱清影的这一策略,无疑将其置于视频生成领域的先锋地位,未来的前景令人翘首以待。此次行动不仅是技术上的决断,更是对开源共享信念的践行,它传递出一个信息:技术的未来属于每一个愿意开源和分享的企业与个人。期待不久的将来,我们都能借助CogVideoX,创造出属于我们自己的视频生成奇迹。
而使用推理大模型,怎么能少了一张好用的4090显卡呢?
在这小编向大家推荐一款来自UCloud优刻得的一款4090云服务器,相比较于市面上的一些GPU共享算力平台的资源,不仅价格实惠,性价比高,性能强劲 的同时还拥有独立IP、预装主流大模型及环境镜像,支持7X24的小时的售后服务。同时,UCloud还推出了9.9元/天的4090特惠,方便大家体验使用 价格非常香,可以放心上车!
高性价比GPU算力:https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_0806_shemei