文生视频、图生视频 AI 大模型开源项目介绍【持续更新】

DogDaoDao2024-12-04 13:14

Open-Sora

介绍：Open-Sora是一个由北京大学和兔展科研团队推出的开源项目，旨在推动视频生成技术的发展。Open-Sora致力于高效制作高质量视频，通过开源原则，使高级视频生成技术变得民主化，并提供一个简化且用户友好的平台，简化视频生成的复杂性。Open-Sora基于Diffusion Transformer（DiT）架构，使用华为开源的PixArt-α高质量文本到图像生成模型，并通过添加时间注意力层将其扩展为生成视频。
GitHub：https://github.com/hpcaitech/Open-Sora
官网：https://hpcaitech.github.io/Open-Sora/

MoneyPrinterTurbo

介绍：MoneyPrinterTurbo 是一个 Python 开发的开源工具，旨在通过自动化生成短视频来加速内容生产。它结合了图像处理、文本转语音 (TTS)、视频编辑等功能，帮助用户快速制作符合社交媒体平台要求的短视频。支持 OpenAI、moonshot、Azure、gpt4free、one-api 等多种 AI 模型接入，满足不同用户的需求。
GitHub：https://github.com/harry0703/MoneyPrinterTurbo

StreamingT2V

介绍：StreamingT2V是由PicsArt AI研究团队推出的一款先进的AI视频生成模型，它能够从文本生成具有丰富动态特征的长视频。StreamingT2V是一种基于自回归技术的文本生成长视频方案，它能够生成长达1200帧、时长为2分钟的视频，显著超越了先前模型的时长限制。该模型通过引入条件注意模块（CAM）、外观保持模块（APM）以及随机混合方法，实现了长视频的流畅生成，确保了时间上的连贯性和与文本描述的紧密对齐。
GitHub：https://github.com/Picsart-AI-Research/StreamingT2V
官网：https://streamingt2v.github.io/

AnimateDiff

介绍：AnimateDiff是一个强大的AI视频生成框架，它能够将个性化的文本到图像（T2I）模型扩展为动画生成器，而无需对模型进行特定的调整。AnimateDiff通过从大规模视频数据集中学习到的运动先验知识，作为Stable Diffusion文生图模型的插件，允许用户将静态图像转换为动态动画。它采用控制模块来影响Stable Diffusion模型，通过大量短视频剪辑的训练，调整图像生成过程，生成一系列与训练视频剪辑相似的图像。
GitHub：https://github.com/guoyww/animatediff
官网：https://animatediff.github.io/

StoryDiffusion

介绍：StoryDiffusion是一个由南开大学和字节跳动合作推出的开源AI故事创作项目，它专注于从文本描述生成具有一致性的图像和视频序列。StoryDiffusion通过结合一致性自注意力和语义运动预测器，为视觉故事生成领域提供了新的探索方向，并为内容创作者提供了一个强大的工具，以实现从文本到视觉故事的转换。
GitHub：https://github.com/HVision-NKU/StoryDiffusion
官网：https://storydiffusion.github.io/

Video-LaVIT

介绍：Video-LaVIT是一个创新的多模态预训练方法，旨在赋予大型语言模型（LLMs）理解和生成视频内容的能力。Video-LaVIT通过有效地将视频分解为关键帧和时间运动，解决了大规模预训练中视频的时空动态建模的挑战。这种方法使得视频、图像和文本的统一生成预训练成为可能。在推理阶段，由LLM生成的离散标记被仔细恢复到原始的连续像素空间，以创建各种视频内容。
GitHub：https://github.com/jy0205/LaVIT
官网：https://video-lavit.github.io/

MagicTime

介绍：MagicTime是一个创新的时间缩影视频生成模型，旨在通过学习现实世界的物理规则来生成包含复杂变形过程的高质量视频。MagicTime项目的核心目标是增强视频生成模型对现实世界精确描绘的能力，通过提出创新的方法和专属数据集，引领了一种全新的视频生成范式，即"元变形仿真"。这个项目能够基于特定的提示创造逼真的视频序列，特别关注于生成具有持续主体变形过程的视频，如植物生长、冰融化或花朵绽放等现象。
GitHub：https://github.com/PKU-YuanGroup/MagicTime/tree/main
官网：https://pku-yuangroup.github.io/MagicTime/

Follow-Your-Click

介绍：Follow-Your-Click是一个由腾讯混元团队联合清华大学和香港科技大学共同研发的图像到视频（Image-to-Video，简称I2V）生成模型。这个模型的核心特点是允许用户通过简单的点击和简短的动作提示来生成局部图像动画，从而将静态图像转换为动态视频。
GitHub：https://github.com/mayuelala/FollowYourClick
官网：https://follow-your-click.github.io/

Animate Anyone

介绍：Animate Anyone 是由阿里巴巴智能计算研究院推出的一款开源框架，专门用于将静态图像中的角色或人物进行动态化。Animate Anyone 利用扩散模型为基础，结合了 ReferenceNet、Pose Guider 姿态引导器和时序生成模块等技术，以实现照片动起来时保持一致性、可控性和稳定性，输出高质量的动态化视频。Animate Anyone 是一个功能强大且易于使用的图像到视频角色动画合成框架。它通过实时动画合成技术和用户友好的界面，使得动画制作变得更加简单和快捷。无论是专业人士还是业余爱好者，都可以利用这个工具创造出生动有趣的动画内容。
GitHub：https://github.com/HumanAIGC/AnimateAnyone

MuseV

介绍：MuseV是由腾讯音乐娱乐的天琴实验室开源的虚拟人视频生成框架，专注于生成高质量的虚拟人视频和口型同步。MuseV作为一个强大的虚拟人视频生成框架，为AI创作领域提供了新的可能性，特别是在虚拟人视频制作和口型同步方面展现出色的表现。
GitHub：https://github.com/TMElyralab/MuseV

AniPortrait

介绍：AniPortrait 是一个由腾讯开发的音频驱动的肖像动画合成框架，旨在根据音频和参考肖像图像生成高质量的动画。AniPortrait适用于虚拟现实、游戏、数字媒体制作等领域，提供了面部动画编辑和面部再现的灵活性。
GitHub：https://github.com/Zejun-Yang/AniPortrait

champ

介绍：Champ是一个由阿里巴巴、复旦大学和南京大学研究人员共同提出的项目，它是一个可控且与原始人物保持一致性的人物图像动画视频生成框架。Champ通过结合3D模型和潜在扩散框架，实现了对复杂人体几何和运动特征的精确捕捉。该框架能够将静态人物图片转换为动态视频动画，同时保持动画的时间一致性和视觉真实性。Champ在未见领域动画和跨身份动画转换方面展现出卓越性能，并计划开源代码，以推动该领域的进一步研究和应用。
GitHub：https://github.com/fudan-generative-vision/champ
官网：https://fudan-generative-vision.github.io/champ/#/

AniTalker

介绍：AniTalker是一个由上海交通大学X-LANCE实验室与思必驰AI Speech研究人员共同开发的开源框架，旨在从单一静态肖像和输入音频生成具有自然流动动作的动画说话视频。AniTalker采用通用动作表示，有效捕获广泛的面部动态，包括微妙的表情和头部运动。该框架通过两种自监督学习策略增强运动描述：一是从同一身份内的源帧重建目标视频帧以学习细微的运动表示；二是开发身份编码器，同时主动最小化身份和运动编码器之间的互信息，确保运动表示是动态的，没有特定于身份的细节，显著减少了对标记数据的需求。AniTalker可以广泛应用于虚拟主播、教育培训、娱乐产业等领域，用于制作互动教学视频、生成电影或游戏中的角色动画等。
GitHub：https://github.com/X-LANCE/AniTalker
官网：https://x-lance.github.io/AniTalker/

dreamtalk

介绍：DreamTalk是一个由清华大学、阿里巴巴集团和华中科技大学联合开发的扩散模型驱动的表情说话头生成框架。DreamTalk能够从单张图像和输入音频生成逼真的、富有表情的说话头像视频，支持多种说话风格。DreamTalk适合需要生成逼真说话面部动画的研究人员、开发者和创意专业人士。DreamTalk通过其创新的技术，为AI数字人领域提供了新的可能性，特别是在生成逼真的面部动作和动态化身方面展现出色的表现。
GitHub：https://github.com/ali-vilab/dreamtalk
官网：https://dreamtalk-project.github.io/

Stable Video Diffusion

介绍：Stable Video Diffusion（简称SVD）是由Stability AI开发的一种先进的视频生成模型，它基于深度学习技术，能够将文本和图像输入转换成生动的场景，并提升概念至动态影像创作。SVD能够生成高分辨率、高质量的视频内容，支持文本到视频和图像到视频的生成。Stable Video Diffusion作为AI视频生成技术的突破，展现了在视频创作领域的广阔前景，为个性化内容定制、短视频创作、虚拟现实与增强现实应用、教育与培训领域以及电影与游戏制作等领域带来了新的可能性。
GitHub：https://github.com/Stability-AI/generative-models
官网：https://www.stablevideo.com/welcome

上一篇：LabVIEW氢气纯化控制系统

下一篇：Y20030017php+mysql小型宠物服务平台的设计与实现源码文档 PPT

热门推荐

01GitHub 镜像站点 02Labelme从安装到标注：零基础完整指南 03安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）04Linux下V2Ray安装配置指南 05jdk21下载、安装（Windows、Linux、macOS）06【踩坑笔记】50系显卡适配的 PyTorch 安装 07手把手教你通过Gemini3 pro 学生认证，白用一年，手慢无！08Opencode CLI 安装成功,但是启动失败 09UV安装并设置国内源 10GitLab 零基础入门指南：从安装到项目管理全流程