文生视频、图生视频 AI 大模型开源项目介绍【持续更新】

Open-Sora

  1. 介绍:Open-Sora是一个由北京大学和兔展科研团队推出的开源项目,旨在推动视频生成技术的发展。Open-Sora致力于高效制作高质量视频,通过开源原则,使高级视频生成技术变得民主化,并提供一个简化且用户友好的平台,简化视频生成的复杂性。Open-Sora基于Diffusion Transformer(DiT)架构,使用华为开源的PixArt-α高质量文本到图像生成模型,并通过添加时间注意力层将其扩展为生成视频。
  2. GitHub:https://github.com/hpcaitech/Open-Sora
  3. 官网:https://hpcaitech.github.io/Open-Sora/

MoneyPrinterTurbo

  1. 介绍:MoneyPrinterTurbo 是一个 Python 开发的开源工具,旨在通过自动化生成短视频来加速内容生产。它结合了图像处理、文本转语音 (TTS)、视频编辑等功能,帮助用户快速制作符合社交媒体平台要求的短视频。支持 OpenAI、moonshot、Azure、gpt4free、one-api 等多种 AI 模型接入,满足不同用户的需求。
  2. GitHub:https://github.com/harry0703/MoneyPrinterTurbo

StreamingT2V

  1. 介绍:StreamingT2V是由PicsArt AI研究团队推出的一款先进的AI视频生成模型,它能够从文本生成具有丰富动态特征的长视频。StreamingT2V是一种基于自回归技术的文本生成长视频方案,它能够生成长达1200帧、时长为2分钟的视频,显著超越了先前模型的时长限制。该模型通过引入条件注意模块(CAM)、外观保持模块(APM)以及随机混合方法,实现了长视频的流畅生成,确保了时间上的连贯性和与文本描述的紧密对齐。
  2. GitHub:https://github.com/Picsart-AI-Research/StreamingT2V
  3. 官网:https://streamingt2v.github.io/

AnimateDiff

  1. 介绍:AnimateDiff是一个强大的AI视频生成框架,它能够将个性化的文本到图像(T2I)模型扩展为动画生成器,而无需对模型进行特定的调整。AnimateDiff通过从大规模视频数据集中学习到的运动先验知识,作为Stable Diffusion文生图模型的插件,允许用户将静态图像转换为动态动画。它采用控制模块来影响Stable Diffusion模型,通过大量短视频剪辑的训练,调整图像生成过程,生成一系列与训练视频剪辑相似的图像。
  2. GitHub:https://github.com/guoyww/animatediff
  3. 官网:https://animatediff.github.io/

StoryDiffusion

  1. 介绍:StoryDiffusion是一个由南开大学和字节跳动合作推出的开源AI故事创作项目,它专注于从文本描述生成具有一致性的图像和视频序列。StoryDiffusion通过结合一致性自注意力和语义运动预测器,为视觉故事生成领域提供了新的探索方向,并为内容创作者提供了一个强大的工具,以实现从文本到视觉故事的转换。
  2. GitHub:https://github.com/HVision-NKU/StoryDiffusion
  3. 官网:https://storydiffusion.github.io/

Video-LaVIT

  1. 介绍:Video-LaVIT是一个创新的多模态预训练方法,旨在赋予大型语言模型(LLMs)理解和生成视频内容的能力。Video-LaVIT通过有效地将视频分解为关键帧和时间运动,解决了大规模预训练中视频的时空动态建模的挑战。这种方法使得视频、图像和文本的统一生成预训练成为可能。在推理阶段,由LLM生成的离散标记被仔细恢复到原始的连续像素空间,以创建各种视频内容。
  2. GitHub:https://github.com/jy0205/LaVIT
  3. 官网:https://video-lavit.github.io/

MagicTime

  1. 介绍:MagicTime是一个创新的时间缩影视频生成模型,旨在通过学习现实世界的物理规则来生成包含复杂变形过程的高质量视频。MagicTime项目的核心目标是增强视频生成模型对现实世界精确描绘的能力,通过提出创新的方法和专属数据集,引领了一种全新的视频生成范式,即"元变形仿真"。这个项目能够基于特定的提示创造逼真的视频序列,特别关注于生成具有持续主体变形过程的视频,如植物生长、冰融化或花朵绽放等现象。
  2. GitHub:https://github.com/PKU-YuanGroup/MagicTime/tree/main
  3. 官网:https://pku-yuangroup.github.io/MagicTime/

Follow-Your-Click

  1. 介绍:Follow-Your-Click是一个由腾讯混元团队联合清华大学和香港科技大学共同研发的图像到视频(Image-to-Video,简称I2V)生成模型。这个模型的核心特点是允许用户通过简单的点击和简短的动作提示来生成局部图像动画,从而将静态图像转换为动态视频。
  2. GitHub:https://github.com/mayuelala/FollowYourClick
  3. 官网:https://follow-your-click.github.io/

Animate Anyone

  1. 介绍:Animate Anyone 是由阿里巴巴智能计算研究院推出的一款开源框架,专门用于将静态图像中的角色或人物进行动态化。Animate Anyone 利用扩散模型为基础,结合了 ReferenceNet、Pose Guider 姿态引导器和时序生成模块等技术,以实现照片动起来时保持一致性、可控性和稳定性,输出高质量的动态化视频。Animate Anyone 是一个功能强大且易于使用的图像到视频角色动画合成框架。它通过实时动画合成技术和用户友好的界面,使得动画制作变得更加简单和快捷。无论是专业人士还是业余爱好者,都可以利用这个工具创造出生动有趣的动画内容。
  2. GitHub:https://github.com/HumanAIGC/AnimateAnyone

MuseV

  1. 介绍:MuseV是由腾讯音乐娱乐的天琴实验室开源的虚拟人视频生成框架,专注于生成高质量的虚拟人视频和口型同步。MuseV作为一个强大的虚拟人视频生成框架,为AI创作领域提供了新的可能性,特别是在虚拟人视频制作和口型同步方面展现出色的表现。
  2. GitHub:https://github.com/TMElyralab/MuseV

AniPortrait

  1. 介绍:AniPortrait 是一个由腾讯开发的音频驱动的肖像动画合成框架,旨在根据音频和参考肖像图像生成高质量的动画。AniPortrait适用于虚拟现实、游戏、数字媒体制作等领域,提供了面部动画编辑和面部再现的灵活性。
  2. GitHub:https://github.com/Zejun-Yang/AniPortrait

champ

  1. 介绍:Champ是一个由阿里巴巴、复旦大学和南京大学研究人员共同提出的项目,它是一个可控且与原始人物保持一致性的人物图像动画视频生成框架。Champ通过结合3D模型和潜在扩散框架,实现了对复杂人体几何和运动特征的精确捕捉。该框架能够将静态人物图片转换为动态视频动画,同时保持动画的时间一致性和视觉真实性。Champ在未见领域动画和跨身份动画转换方面展现出卓越性能,并计划开源代码,以推动该领域的进一步研究和应用。
  2. GitHub:https://github.com/fudan-generative-vision/champ
  3. 官网:https://fudan-generative-vision.github.io/champ/#/

AniTalker

  1. 介绍:AniTalker是一个由上海交通大学X-LANCE实验室与思必驰AI Speech研究人员共同开发的开源框架,旨在从单一静态肖像和输入音频生成具有自然流动动作的动画说话视频。AniTalker采用通用动作表示,有效捕获广泛的面部动态,包括微妙的表情和头部运动。该框架通过两种自监督学习策略增强运动描述:一是从同一身份内的源帧重建目标视频帧以学习细微的运动表示;二是开发身份编码器,同时主动最小化身份和运动编码器之间的互信息,确保运动表示是动态的,没有特定于身份的细节,显著减少了对标记数据的需求。AniTalker可以广泛应用于虚拟主播、教育培训、娱乐产业等领域,用于制作互动教学视频、生成电影或游戏中的角色动画等。
  2. GitHub:https://github.com/X-LANCE/AniTalker
  3. 官网:https://x-lance.github.io/AniTalker/

dreamtalk

  1. 介绍:DreamTalk是一个由清华大学、阿里巴巴集团和华中科技大学联合开发的扩散模型驱动的表情说话头生成框架。DreamTalk能够从单张图像和输入音频生成逼真的、富有表情的说话头像视频,支持多种说话风格。DreamTalk适合需要生成逼真说话面部动画的研究人员、开发者和创意专业人士。DreamTalk通过其创新的技术,为AI数字人领域提供了新的可能性,特别是在生成逼真的面部动作和动态化身方面展现出色的表现。
  2. GitHub:https://github.com/ali-vilab/dreamtalk
  3. 官网:https://dreamtalk-project.github.io/

Stable Video Diffusion

  1. 介绍:Stable Video Diffusion(简称SVD)是由Stability AI开发的一种先进的视频生成模型,它基于深度学习技术,能够将文本和图像输入转换成生动的场景,并提升概念至动态影像创作。SVD能够生成高分辨率、高质量的视频内容,支持文本到视频和图像到视频的生成。Stable Video Diffusion作为AI视频生成技术的突破,展现了在视频创作领域的广阔前景,为个性化内容定制、短视频创作、虚拟现实与增强现实应用、教育与培训领域以及电影与游戏制作等领域带来了新的可能性。
  2. GitHub:https://github.com/Stability-AI/generative-models
  3. 官网:https://www.stablevideo.com/welcome
相关推荐
爱研究的小牛2 小时前
Runway 技术浅析(七):视频技术中的运动跟踪
人工智能·深度学习·计算机视觉·目标跟踪·aigc
DieYoung_Alive2 小时前
搭建深度学习框架+nn.Module
人工智能·深度学习·yolo
GOTXX2 小时前
修改训练策略,无损提升性能
人工智能·计算机视觉·目标跟踪
被制作时长两年半的个人练习生2 小时前
【pytorch】pytorch的缓存策略——计算机分层理论的另一大例证
人工智能·pytorch·python
霖大侠2 小时前
Adversarial Learning forSemi-Supervised Semantic Segmentation
人工智能·算法·机器学习
lexusv8ls600h3 小时前
AI - 如何构建一个大模型中的Tool
人工智能·langchain·llm
CQU_JIAKE4 小时前
3.29【机器学习】第五章作业&实现
人工智能·算法·机器学习
知来者逆4 小时前
LlaSMol—— 建立一个大型、高质量的指令调整数据集 SMolInstruct 用于开发一个化学任务的大语言模型
人工智能·gpt·语言模型·自然语言处理·llm·生物制药
数据猎手小k4 小时前
GEOBench-VLM:专为地理空间任务设计的视觉-语言模型基准测试数据集
人工智能·语言模型·自然语言处理·数据集·机器学习数据集·ai大模型应用