智谱 AI 开源视频生成模型CogVideoX:单张 4090 显卡即可推理

随着大型模型技术的持续发展,视频生成技术正逐步走向成熟。以Sora、Gen-3等闭源视频生成模型为代表的技术,正在重新定义行业的未来格局。

而近几个月,国产的AI视频生成模型也是层出不穷,像是快手可灵、字节即梦、智谱清影、Vidu、PixVerse V2 等。

就在近日,智谱AI秉承"以先进技术,服务全球开发者"的理念,宣布将与"清影"同源的视频生成模型------CogVideoX开源,以期让每一位开发者、每一家企业都能自由地开发属于自己的视频生成模型,从而推动整个行业的快速迭代与创新发展。

CogVideoX是什么?

CogVideoX是智谱AI最新推出的开源AI视频生成模型,与智谱AI的商业产品"清影"同源。

CogVideoX支持英文提示词,能生成6秒长、每秒8帧、分辨率为720*480的视频。模型推理需16---36GB显存,目前不支持量化推理和多卡推理。项目还包括3D Causal VAE组件用于视频重建,以及丰富的示例和工具,包括CLI/WEB Demo、在线体验、API接口示例和微调指南。

CogVideoX-2B的提示词上限为226个token,视频长度为6秒,帧率为8帧/秒,视频分辨率为720*480。现在主流的AI视频,全部都是闭源的,有一个说是开源的Open-Sora,说实话实测下来的效果也是差强人意。而CogVideoX的效果虽然和主流的闭源模型尚存在一些差距,但是总的来讲还是值得使用的。

简单来说,CogVideoX是一个能够将你的文字直接转换成视频的神奇工具。这次的CogVideoX-2B模型,不仅视频生成能力惊人,而且对电脑配置的要求并不高,让普通用户也能轻松上手。

模型亮点

CogVideoX-2B的亮点可不少。生成视频时,你需要准备18GB的GPU内存(如果使用SAT技术),而使用diffusers的话,则需要36GB,但据说这个要求很快就会得到优化。如果你想要自己动手调教这个模型,那么40GB的GPU内存是必不可少的。生成的视频长度为6秒,分辨率为720 * 480,帧率为8帧/秒。目前,它还不支持量化推理和多卡推理,但这并不影响它在视频生成技术上的重大意义。

专家 Transformer

使用VAE的编码器将视频压缩至潜在空间,然后将潜在空间分割成块并展开成长的序列嵌入z_vision。同时,我们使用T5,将文本输入编码为文本嵌入z_text,然后将z_text和z_vision沿序列维度拼接。拼接后的嵌入被送入专家Transformer块堆栈中处理。最后,我们反向拼接嵌入来恢复原始潜在空间形状,并使用VAE进行解码以重建视频。

Data

视频生成模型训练需筛选高质量视频数据,以学习真实世界动态。视频可能因人工编辑或拍摄问题而不准确。为此,团队开发了负面标签来识别和排除低质量视频,如过度编辑、运动不连贯、质量低下、讲座式、文本主导和屏幕噪音视频。通过video-llama训练的过滤器,我们标注并筛选了20,000个视频数据点。

同时,计算光流和美学分数,动态调整阈值,确保生成视频的质量。视频数据通常没有文本描述,需要转换为文本描述以供文本到视频模型训练。现有的视频字幕数据集字幕较短,无法全面描述视频内容。

团队提出了一种从图像字幕生成视频字幕的管道,并微调端到端的视频字幕模型以获得更密集的字幕。这种方法通过Panda70M模型生成简短字幕,使用CogView3模型生成密集图像字幕,然后使用GPT-4模型总结生成最终的短视频。

还微调了一个基于CogVLM2-Video和Llama 3的CogVLM2-Caption模型,使用密集字幕数据进行训练,以加速视频字幕生成过程。

实例展示

一艘精致的木制玩具船,桅杆和船帆上雕刻着复杂的图案,在模拟海浪的蓝色长毛绒地毯上平稳地滑行。船身漆成浓郁的棕色,并带有小窗户。地毯柔软而有质感,提供了一个完美的背景,就像一片广阔的海洋。船的周围环绕着各种玩具和儿童用品,暗示着一个充满童趣的环境。这个场景捕捉到了童年的天真和想象力,玩具船的旅程象征着在异想天开的室内环境中的无尽冒险。

镜头跟在一辆白色复古越野车后面,车顶有黑色行李架,越野车在陡峭的山坡上沿着松树环绕的陡峭土路快速行驶,轮胎上的尘土飞扬,阳光照在越野车上,越野车在土路上快速行驶,给整个场景投下了温暖的光辉。土路缓缓弯向远方,看不到其他车辆。道路两旁的树木都是红杉,还有零星的绿色植物。从后方看,汽车轻松地沿着弯道行驶,仿佛在崎岖的地形上行驶。土路本身被陡峭的丘陵和山脉环绕,头顶是晴朗的蓝天和飘渺的白云。

在一个饱受战争蹂躏的城市,废墟和残垣断壁诉说着满目疮痍,在这个令人心碎的背景下,一个凄美的特写镜头定格了一个年轻的女孩。她的脸上沾满了灰烬,无声地证明着周围的混乱。她的眼睛里闪烁着悲伤和坚韧,捕捉到了这个因冲突而失去天真世界的原始情感。

小结:智谱清影引领视频生成技术新潮流

CogVideoX-2B的开源,无疑是在视频生成技术上的一大步。它让普通人也能轻松制作出高质量的视频内容,而且开源这件事,让全球的开发者和研究者都能参与到这个技术的共享和进步中来。

而智谱清影的开源举措,不仅刷新了视频生成技术的边界,也为技术爱好者开辟了新的学习天地。当前,视频生成领域充满活力,似乎昭示着国内AI视频技术即将迈入全新时代。智谱清影的这一策略,无疑将其置于视频生成领域的先锋地位,未来的前景令人翘首以待。此次行动不仅是技术上的决断,更是对开源共享信念的践行,它传递出一个信息:技术的未来属于每一个愿意开源和分享的企业与个人。期待不久的将来,我们都能借助CogVideoX,创造出属于我们自己的视频生成奇迹。

而使用推理大模型,怎么能少了一张好用的4090显卡呢?

这小编向大家推荐一款来自UCloud优刻得的一款4090云服务器,相比较于市面上的一些GPU共享算力平台的资源,不仅价格实惠,性价比高,性能强劲 的同时还拥有独立IP、预装主流大模型及环境镜像,支持7X24的小时的售后服务。同时,UCloud还推出了9.9元/天的4090特惠,方便大家体验使用 价格非常香,可以放心上车!

高性价比GPU算力:https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_0806_shemei

相关推荐
花生糖@8 小时前
Midjourney即将推出的AI生视频产品:CEO洞见分享
人工智能·ai·aigc·midjourney
学习前端的小z10 小时前
【AI绘画】Midjourney光影控制详解
人工智能·ai作画·aigc·midjourney
学习前端的小z11 小时前
【AI绘画】Midjourney后置指令--seed、--tile、--q、--chaos、--w、--no详解
人工智能·ai作画·aigc·midjourney
Elastic 中国社区官方博客11 小时前
GenAI 用于客户支持 — 第 4 部分:调整 RAG 搜索的相关性
大数据·人工智能·elasticsearch·搜索引擎·ai·机器人·全文检索
花菜回锅肉12 小时前
开源可视化大屏superset Docker环境部署
数据仓库·docker·容器·开源·superset
AI边缘计算服务器_图为科技12 小时前
图为科技前沿探索:浅谈如何轻量化落地大模型?
人工智能·科技·ai·边缘计算
技术无疆12 小时前
DDComponentForAndroid:探索Android组件化方案
android·java·开源·android-studio·组件化
百创科技13 小时前
社群空间站9.9付费入群系统易支付版全套搭建教程
开源
执沐14 小时前
开源直播平台录屏Bililive-go本地Windows环境部署并实现远程录屏
windows·golang·开源
爱研究的小牛14 小时前
Adobe Sensei——自动化视频编辑、特效应用和素材增强,通过AI技术快速优化视频内容,自动修复视频质量、自动添加背景音乐或字幕
人工智能·深度学习·adobe·自动化·aigc