视频生成

万里鹏程转瞬至2 天前
prompt·aigc·视频生成
wan2.1-2.2 官方提示词改写(prompt extend)模块这里只分析中文结构的提示词。通过对于wan2.1与wan2.2两个版本,可以发现wan2.2的提示词质量更高,能体现I2V与T2V的任务差距。
AI生成未来6 天前
aigc·音视频·视频生成·音频驱动视频
港科大等提出音频驱动多人视频生成新范式 AnyTalker,解锁任意数量角色间的自然互动!文章链接:https://arxiv.org/abs/2511.23475 开源链接:https://github.com/HKUST-C4G/AnyTalker 项目链接:https://hkust-c4g.github.io/AnyTalker-homepage
AI生成未来6 天前
人工智能·扩散模型·视频编辑·视频生成
ICCV 2025 | 北大王选所推出AnyPortal:像素级操控视频背景,前景细节100%保留!文章链接:https://arxiv.org/pdf/2509.07472 主页:https://gaowenshuo.github.io/AnyPortal/ Git链接:https://github.com/gaowenshuo/AnyPortalCode
AI生成未来7 天前
aigc·扩散模型·视频生成·长视频
南洋理工&腾讯最新Rolling Forcing解决流视频生成长期误差累积,连贯如一且长达数分钟!论文链接:https://arxiv.org/pdf/2509.25161 项目链接:https://kunhao-liu.github.io/Rolling_Forcing_Webpage/
小白狮ww9 天前
人工智能·深度学习·音视频·文生视频·图片处理·视频生成·图生视频
从几秒走向几分钟:长视频生成进入 LongCat 时刻在短短一年里,AI 视频生成已经从「炫技几秒」进化到「真的能讲故事」。而真正能撑起国内开源长视频创作的一员猛将,也终于登场了——来自美团的 LongCat-Video。 它的能力很好概括: 一句话?给你拍成一段剧情; 一张图?它能让画面自己动起来; 视频断在一半?它立刻替你续拍下去。 LongCat-Video 基于 136 亿参数的视频生成大模型,同时支持文字转视频、图片转视频和视频续写,让创意能够持续往前推进。它不是只会做几秒炫酷短片,而是从训练阶段就融入了长时序逻辑,让光影不飘、角色不丢、剧情不突兀
CV实验室14 天前
人工智能·计算机视觉·3d·论文·音视频·视频生成
CV论文速递:覆盖视频生成与理解、3D视觉与运动迁移、多模态与跨模态智能、专用场景视觉技术等方向 (11.17-11.21)本周精选10篇CV领域前沿论文,覆盖视频生成与理解、3D视觉与运动迁移、多模态与跨模态智能、专用场景视觉技术等方向。全部300多篇论文已经整理好,感兴趣的自取!
山顶夕景18 天前
大模型·多模态·视频生成·sora
【LLM-video】HunyuanVideo-1.5视频生成模型解决视频生成中的高效推理和高视觉质量问题:1、轻量级高性能架构:提出了一个高效的架构,集成了一个83亿参数的扩散变压器(DiT)和一个3D因果VAE,实现了空间维度上的16倍压缩和时间轴上的4倍压缩。
沉迷单车的追风少年1 个月前
人工智能·深度学习·计算机视觉·aigc·音视频·视频生成·视频超分
Diffusion Models与视频超分(3): 解读当前最快和最强的开源模型FlashVSRDiffusion Models专栏文章汇总:入门与实战前言:FlashVSR 是首个实现近实时(17 FPS)、流式处理、支持 1440p 的扩散视频超分辨率模型,通过三阶段蒸馏、局部稀疏注意力和微型条件解码器,兼顾速度、质量与可扩展性。
这张生成的图像能检测吗1 个月前
人工智能·计算机视觉·视觉语言模型·视频生成
StreamingT2V:从文本生成一致、动态和可扩展的长视频论文题目:StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text(从文本生成一致、动态和可扩展的长视频)
m0_650108241 个月前
视频生成·论文精读·时空扩散模型·时空 u-net·multidiffusion·条件生成
【论文精读】Lumiere:重塑视频生成的时空扩散模型标题:Lumiere: A Space-Time Diffusion Model for Video Generation
沉迷单车的追风少年1 个月前
人工智能·深度学习·aigc·音视频·强化学习·视频生成·视频超分
Diffusion Model与视频超分(2):解读字节开源视频增强模型SeedVR2前言:在SeedVR之后,字节又开源了SeedVR2。相比于上一代的模型,在速度和性能上都有了非常大的提升,特别是单步的生成技术,极大降低了计算成本。本篇博客从论文和代码角度讲解《SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training》
m0_650108241 个月前
计算机视觉·图像生成·视频生成·dim·论文精读·双向状态空间模型·高效生成模型
【论文精读】Diffusion Mamba:基于双向 SSM 的高效图像与视频生成架构标题:Scaling Diffusion Mamba with Bidirectional SSMs for Efficient Image and Video Generation
m0_650108241 个月前
计算机视觉·视频生成·论文精读·多模态ai·图生视频评测基准·图像到视频(i2v)
【论文精读】AIGCBench:AI 图像生成视频(I2V)的全面评估基准标题:AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated by AI
小白狮ww2 个月前
人工智能·深度学习·机器学习·音视频·视频生成·多模态模型·人物视频
清华联合字节推出 HuMo,实现三模态协同生成人物视频如今文本生成图像与视频已不再是天方夜谭。然而,当大多数模型仍在为生成画面的清晰度与稳定性而努力时,一个更为棘手的挑战浮出水面:如何精准、一致地生成以「人物」为核心的高质量视频?对此,清华大学与字节跳动联合推出了一个名为 HuMo 的统一 HCVG 框架。它专为「创造人」而生,旨在攻克这一核心难题。
m0_650108242 个月前
计算机视觉·扩散模型·视频生成·论文精读·隐式条件建模
【 论文精读】VIDM:基于扩散模型的视频生成新范式标题:VIDM: Video Implicit Diffusion Models作者:Kangfu Mei, Vishal M. Patel
m0_650108242 个月前
人工智能·计算机视觉·扩散模型·视频编辑·视频生成·论文精读·不完美光流
【论文精读】FlowVid:驯服不完美的光流,实现一致的视频到视频合成标题:FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis 作者:Feng Liang*, Bichen Wu†, Jialiang Wang, Licheng Yu, Kunpeng Li, Yinan Zhao, Ishan Misra, Jia-Bin Huang, Peizhao Zhang, Peter Vajda, Diana Marculescu 单位:德克萨斯大学奥斯汀分校,Meta
AI生成未来2 个月前
视频生成·自回归·长视频
4分15秒!高质量超长视频生成取得颠覆突破!字节Self-Forcing++超基线50倍,效果炸裂!论文链接:https://arxiv.org/pdf/2510.02283 项目链接:https://self-forcing-plus-plus.github.io/
todoitbo3 个月前
ai·音视频·视频生成·ai生成视频
你只需输入一句话,MoneyPrinterTurbo直接给你输出一个视频🎏:你只管努力,剩下的交给时间🏠 :小破站在如今内容创作日益自动化的时代,创作者们总是追求更加高效、更少繁琐操作的创作工具。尤其在视频制作领域,如何快速生成质量优秀的视频内容成为了不少人关心的问题。今天,我们要介绍的就是一个革命性的工具:MoneyPrinterTurbo,它能够让你只需输入一个标题,剩下的交给它,自动生成一支完整的视频!在这篇博客中,我们将带你一起了解这个强大的工具以及如何上手使用它。
顾道长生'3 个月前
人工智能·计算机视觉·音视频·视频生成
(CVPR-2024)VideoBooth:基于扩散的视频生成与图像提示paper title:VideoBooth: Diffusion-based Video Generation with Image Prompts
顾道长生'3 个月前
架构·音视频·视频生成
(Arxiv-2025)HunyuanCustom:一种面向多模态驱动的定制化视频生成架构paper title:HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation