PAIR发布长视频生成模型StreamingT2V:2分钟超长AI视频生成,最强开源视频生成

前言

随着人工智能技术的不断进步,AI生成内容(AIGC)已经成为了技术研究和应用开发的热点领域。特别是在视频生成领域,从短视频到长视频的生成,AI模型正不断突破限制,带来更加丰富和动态的内容创作可能。最近,Picsart人工智能研究所、德克萨斯大学和SHI实验室的研究人员联合推出的StreamingT2V视频模型,无疑为长视频生成领域注入了新的活力。

StreamingT2V模型简介

StreamingT2V是一种先进的长视频生成模型,能够通过文本直接生成2分钟、1分钟等不同时间长度的视频,且这些视频动作一致、连贯,没有卡顿,展现出高质量的视频生成能力。虽然在视频质量和多元化方面,StreamingT2V还无法与Sora模型媲美,但其在高速运动视频生成方面的表现尤为出色,为开发更长时间的视频模型提供了重要的技术参考。

技术创新点

StreamingT2V采用了创新的自回归技术框架,通过条件注意力、外观保持和随机混合三大模块,极大地延长了视频的时间长度,同时保证了动作的连贯性和视频的整体质量。简单来说,StreamingT2V通过"击鼓传花"的方法,利用每个模块提取前一个视频块中的表示特征,以保证动作一致性、文本语义还原和视频完整性等。

  • 条件注意力模块:作为一种"短期记忆",该模块通过注意力机制从前一个视频块中提取特征,并将其注入到当前视频块的生成中,从而实现流畅自然的块间过渡。
  • 外观保持模块:作为一种"长期记忆",该模块从初始图像(锚定帧)中提取场景和对象特征,并用于所有视频块的生成流程,保持视频全局场景、外观的一致性。
  • 随机混合模块:用于增强视频分辨率和质量,通过自回归增强的方法,优化视频的分辨率,同时保持视频的时间连贯性。

开源与应用前景

研究团队已经宣布,他们正在准备开源StreamingT2V视频模型。一旦开源,这将极大促进视频生成技术的研究和应用开发,为AIGC领域带来新的创新和突破。StreamingT2V的应用前景广阔,不仅可以用于娱乐和创意内容生成,还可以应用于教育、培训和模拟等领域,提供更加丰富和真实的视觉体验。

结论

StreamingT2V模型的推出,标志着AI视频生成技术向更长时间、更高质量的方向迈进了一大步。随着模型的开源和进一步的技术迭代,我们有理由相信,未来AI生成的视频将更加生动丰富,为人们带来更加震撼的视觉享受。

模型下载

Huggingface模型下载

huggingface.co/PAIR/Stream...

AI快站模型免费加速下载

aifasthub.com/models/PAIR

相关推荐
陈苏同学31 分钟前
机器翻译 & 数据集 (NLP基础 - 预处理 → tokenize → 词表 → 截断/填充 → 迭代器) + 代码实现 —— 笔记3.9《动手学深度学习》
人工智能·pytorch·笔记·python·深度学习·自然语言处理·机器翻译
狂放不羁霸31 分钟前
组会 | 大语言模型 + LoRA
人工智能·语言模型·自然语言处理
sp_fyf_202433 分钟前
【大语言模型】ACL2024论文-20 SCIMON:面向新颖性的科学启示机器优化
人工智能·深度学习·机器学习·语言模型·自然语言处理·数据挖掘
宋1381027972035 分钟前
SouVR Feedback force7 力反馈设备
人工智能·机器人·vr
股票GPT分析1 小时前
《Python 股票交易分析:开启智能投资新时代》(二)
大数据·服务器·python·c#·fastapi
大熊程序猿1 小时前
python Flask指定IP和端口
开发语言·python·flask
我叫白小猿1 小时前
【大模型-智能体】AutoGen Studio测试和导出工作流程
人工智能·python·workflow·工作流·智能体·autogen
K2SO4钾1 小时前
16. 清理Python包管理工具(pip 和 conda)的缓存和冗余文件
python·conda·pip
CopyLower1 小时前
AI赋能电商:智能购物推荐、会员分类与商品定价的创新探索
人工智能·分类·数据挖掘
界面开发小八哥1 小时前
界面控件DevExpress WinForms v24.2新功能预览 - 人工智能(AI)
人工智能·.net·界面控件·devexpress·ui开发