视频生成

m0_650108246 小时前
计算机视觉·图像生成·视频生成·dim·论文精读·双向状态空间模型·高效生成模型
【论文精读】Diffusion Mamba:基于双向 SSM 的高效图像与视频生成架构标题:Scaling Diffusion Mamba with Bidirectional SSMs for Efficient Image and Video Generation
m0_650108243 天前
计算机视觉·视频生成·论文精读·多模态ai·图生视频评测基准·图像到视频(i2v)
【论文精读】AIGCBench:AI 图像生成视频(I2V)的全面评估基准标题:AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated by AI
小白狮ww6 天前
人工智能·深度学习·机器学习·音视频·视频生成·多模态模型·人物视频
清华联合字节推出 HuMo,实现三模态协同生成人物视频如今文本生成图像与视频已不再是天方夜谭。然而,当大多数模型仍在为生成画面的清晰度与稳定性而努力时,一个更为棘手的挑战浮出水面:如何精准、一致地生成以「人物」为核心的高质量视频?对此,清华大学与字节跳动联合推出了一个名为 HuMo 的统一 HCVG 框架。它专为「创造人」而生,旨在攻克这一核心难题。
m0_650108248 天前
计算机视觉·扩散模型·视频生成·论文精读·隐式条件建模
【 论文精读】VIDM:基于扩散模型的视频生成新范式标题:VIDM: Video Implicit Diffusion Models作者:Kangfu Mei, Vishal M. Patel
m0_650108249 天前
人工智能·计算机视觉·扩散模型·视频编辑·视频生成·论文精读·不完美光流
【论文精读】FlowVid:驯服不完美的光流,实现一致的视频到视频合成标题:FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis 作者:Feng Liang*, Bichen Wu†, Jialiang Wang, Licheng Yu, Kunpeng Li, Yinan Zhao, Ishan Misra, Jia-Bin Huang, Peizhao Zhang, Peter Vajda, Diana Marculescu 单位:德克萨斯大学奥斯汀分校,Meta
AI生成未来20 天前
视频生成·自回归·长视频
4分15秒!高质量超长视频生成取得颠覆突破!字节Self-Forcing++超基线50倍,效果炸裂!论文链接:https://arxiv.org/pdf/2510.02283 项目链接:https://self-forcing-plus-plus.github.io/
todoitbo2 个月前
ai·音视频·视频生成·ai生成视频
你只需输入一句话,MoneyPrinterTurbo直接给你输出一个视频🎏:你只管努力,剩下的交给时间🏠 :小破站在如今内容创作日益自动化的时代,创作者们总是追求更加高效、更少繁琐操作的创作工具。尤其在视频制作领域,如何快速生成质量优秀的视频内容成为了不少人关心的问题。今天,我们要介绍的就是一个革命性的工具:MoneyPrinterTurbo,它能够让你只需输入一个标题,剩下的交给它,自动生成一支完整的视频!在这篇博客中,我们将带你一起了解这个强大的工具以及如何上手使用它。
顾道长生'2 个月前
人工智能·计算机视觉·音视频·视频生成
(CVPR-2024)VideoBooth:基于扩散的视频生成与图像提示paper title:VideoBooth: Diffusion-based Video Generation with Image Prompts
顾道长生'2 个月前
架构·音视频·视频生成
(Arxiv-2025)HunyuanCustom:一种面向多模态驱动的定制化视频生成架构paper title:HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation
顾道长生'2 个月前
音视频·视频生成
(CVPR-2025)视频生成中的多主体开放集个性化paper title:Multi-subject Open-set Personalization in Video Generation
AI生成未来3 个月前
aigc·视频生成·长视频生成
ICCV 2025 | 视频生成迈入“多段一致”新时代!TokensGen用“压缩Token”玩转长视频生成文章链接:https://arxiv.org/pdf/2507.15728 项目链接:https://vicky0522.github.io/tokensgen-webpage/
DogDaoDao3 个月前
人工智能·深度学习·开源·大模型·github·音视频·视频生成
2025年 GitHub 主流开源视频生成模型介绍Wan2.1 是阿里巴巴开源的高性能视频生成模型,凭借技术创新和易用性成为当前AI视频生成领域的标杆工具。其核心特点如下:
顾道长生'4 个月前
计算机视觉·音视频·视频生成
(Arxiv-2025)通过动态 token 剔除实现无需训练的高效视频生成paper是CUHK发布在Arxiv 2025的工作paper title:Training-Free Efficient Video Generation via Dynamic Token Carving
Sherlock Ma5 个月前
人工智能·深度学习·计算机视觉·aigc·音视频·扩散模型·视频生成
Seedance:字节发布视频生成基础模型新SOTA,能力全面提升Seedance 1.0 是由字节跳动推出的高性能视频生成基础模型,旨在突破当前视频生成模型在指令遵循、运动合理性与视觉质量平衡方面的瓶颈。该模型通过多源数据整合与精准视频字幕生成,实现了跨多样化场景的全面学习;采用高效的架构设计,支持多镜头生成以及文本到视频和图像到视频任务的联合学习;通过细粒度监督微调和多维度奖励机制的强化学习,显著提升了模型性能;并借助多阶段蒸馏策略和系统级优化,实现了 10 倍的推理加速。
春末的南方城市5 个月前
人工智能·计算机视觉·自然语言处理·aigc·音视频·视频生成
腾讯开源视频生成工具 HunyuanVideo-Avatar,上传一张图+一段音频,就能让图中的人物、动物甚至虚拟角色“活”过来,开口说话、唱歌、演相声!腾讯混元团队提出的 HunyuanVideo-Avatar 是一个基于多模态扩散变换器(MM-DiT)的模型,能够生成动态、情绪可控和多角色对话视频。支持仅 10GB VRAM 的单 GPU运行,支持多种下游任务和应用。例如生成会说话的虚拟形象视频,可用于电商、在线直播、社交媒体视频制作等。此外,其多角色动画功能则拓展了视频内容创作、编辑等应用场景。
大数据AI人工智能培训专家培训讲师叶梓6 个月前
人工智能·ai·大模型·音视频·视频·视频生成·长视频
FramePack:让视频生成更高效、更实用想要掌握如何将大模型的力量发挥到极致吗?叶梓老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。
OpenBayes7 个月前
人工智能·深度学习·数据集·llama·视频生成·推理·蛋白质突变
OpenBayes 一周速览|1分钟生成完整音乐,DiffRhythm人声伴奏一键搞定; Stable Virtual Camera重塑3D视频创作5 个数据集:* 302 例罕见病病例数据集* DRfold2 RNA 结构测试数据集* NaturalReasoning 自然推理数据集
HyperAI超神经7 个月前
图像处理·人工智能·3d·数学推理·视频生成·对话语音生成·蛋白质突变
Stable Virtual Camera 重新定义3D内容生成,解锁图像新维度;BatteryLife助力更精准预测电池寿命在数字内容创作的激烈竞争中,Stability AI 正站在命运的十字路口。这家曾以 Stable Diffusion 引爆图像生成革命的公司,却因上层管理问题陷入了危机。近期,Stability AI 推出了 Stable Virtual Camera 模型,不知能否以一记重拳打破僵局。
Bill Adams7 个月前
人工智能·开源·音视频·视频生成
开源免费一句话生成儿童故事视频核心思想解析再看一个演示视频,学会核心思想后,可以打造自己的内容生成工具,后文有基于飞书多维表格的实现效果:一句话灵感生成儿童故事视频演示
AI生成未来7 个月前
多模态·图像生成·综述·多模态大模型·视频生成
通向AGI的未来之路!首篇2D/视频/3D/4D统一生成框架全景综述(港科大&中山等)文章链接: https://arxiv.org/pdf/2503.04641理解并复现现实世界是人工通用智能(AGI)研究中的一个关键挑战。为实现这一目标,许多现有方法(例如世界模型)旨在捕捉支配物理世界的基本原理,从而实现更精确的模拟和有意义的交互。然而,当前的方法通常将不同模态(包括2D(图像)、视频、3D和4D表示)视为独立领域,忽略了它们之间的相互依赖性。此外,这些方法通常专注于现实的孤立维度,而没有系统地整合它们之间的联系。在本综述中,我们提出了一种多模态生成模型的统一综述,探讨了现实世界模拟中