视频生成

顾道长生'8 天前
计算机视觉·音视频·视频生成
(Arxiv-2025)通过动态 token 剔除实现无需训练的高效视频生成paper是CUHK发布在Arxiv 2025的工作paper title:Training-Free Efficient Video Generation via Dynamic Token Carving
Sherlock Ma1 个月前
人工智能·深度学习·计算机视觉·aigc·音视频·扩散模型·视频生成
Seedance:字节发布视频生成基础模型新SOTA,能力全面提升Seedance 1.0 是由字节跳动推出的高性能视频生成基础模型,旨在突破当前视频生成模型在指令遵循、运动合理性与视觉质量平衡方面的瓶颈。该模型通过多源数据整合与精准视频字幕生成,实现了跨多样化场景的全面学习;采用高效的架构设计,支持多镜头生成以及文本到视频和图像到视频任务的联合学习;通过细粒度监督微调和多维度奖励机制的强化学习,显著提升了模型性能;并借助多阶段蒸馏策略和系统级优化,实现了 10 倍的推理加速。
春末的南方城市1 个月前
人工智能·计算机视觉·自然语言处理·aigc·音视频·视频生成
腾讯开源视频生成工具 HunyuanVideo-Avatar,上传一张图+一段音频,就能让图中的人物、动物甚至虚拟角色“活”过来,开口说话、唱歌、演相声!腾讯混元团队提出的 HunyuanVideo-Avatar 是一个基于多模态扩散变换器(MM-DiT)的模型,能够生成动态、情绪可控和多角色对话视频。支持仅 10GB VRAM 的单 GPU运行,支持多种下游任务和应用。例如生成会说话的虚拟形象视频,可用于电商、在线直播、社交媒体视频制作等。此外,其多角色动画功能则拓展了视频内容创作、编辑等应用场景。
大数据AI人工智能培训专家培训讲师叶梓3 个月前
人工智能·ai·大模型·音视频·视频·视频生成·长视频
FramePack:让视频生成更高效、更实用想要掌握如何将大模型的力量发挥到极致吗?叶梓老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。
OpenBayes3 个月前
人工智能·深度学习·数据集·llama·视频生成·推理·蛋白质突变
OpenBayes 一周速览|1分钟生成完整音乐,DiffRhythm人声伴奏一键搞定; Stable Virtual Camera重塑3D视频创作5 个数据集:* 302 例罕见病病例数据集* DRfold2 RNA 结构测试数据集* NaturalReasoning 自然推理数据集
HyperAI超神经3 个月前
图像处理·人工智能·3d·数学推理·视频生成·对话语音生成·蛋白质突变
Stable Virtual Camera 重新定义3D内容生成,解锁图像新维度;BatteryLife助力更精准预测电池寿命在数字内容创作的激烈竞争中,Stability AI 正站在命运的十字路口。这家曾以 Stable Diffusion 引爆图像生成革命的公司,却因上层管理问题陷入了危机。近期,Stability AI 推出了 Stable Virtual Camera 模型,不知能否以一记重拳打破僵局。
Bill Adams4 个月前
人工智能·开源·音视频·视频生成
开源免费一句话生成儿童故事视频核心思想解析再看一个演示视频,学会核心思想后,可以打造自己的内容生成工具,后文有基于飞书多维表格的实现效果:一句话灵感生成儿童故事视频演示
AI生成未来4 个月前
多模态·图像生成·综述·多模态大模型·视频生成
通向AGI的未来之路!首篇2D/视频/3D/4D统一生成框架全景综述(港科大&中山等)文章链接: https://arxiv.org/pdf/2503.04641理解并复现现实世界是人工通用智能(AGI)研究中的一个关键挑战。为实现这一目标,许多现有方法(例如世界模型)旨在捕捉支配物理世界的基本原理,从而实现更精确的模拟和有意义的交互。然而,当前的方法通常将不同模态(包括2D(图像)、视频、3D和4D表示)视为独立领域,忽略了它们之间的相互依赖性。此外,这些方法通常专注于现实的孤立维度,而没有系统地整合它们之间的联系。在本综述中,我们提出了一种多模态生成模型的统一综述,探讨了现实世界模拟中
杀生丸学AI5 个月前
人工智能·3d·大模型·aigc·svd·语义分割·视频生成
【三维分割】LangSplat: 3D Language Gaussian Splatting(CVPR 2024 highlight)论文:https://arxiv.org/pdf/2312.16084 代码:https://github.com/minghanqin/LangSplat
大数据AI人工智能培训专家培训讲师叶梓5 个月前
人工智能·计算机视觉·音视频·实时音视频·图像识别·gpt-4·视频生成
OmniHuman:一张图+音频生成逼真视频人工智能咨询培训老师叶梓 转载标明出处想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。
AI生成未来5 个月前
视频生成·流匹配
从低清到4K的魔法:FlashVideo突破高分辨率视频生成计算瓶颈(港大&港中文&字节)论文链接:https://arxiv.org/pdf/2502.05179 项目链接:https://github.com/FoundationVision/FlashVideo
ScienceLi11256 个月前
微调·扩散模型·视频生成
Tune-A-Video:使用图像扩散模型进行一次微调实现文本到视频的生成Paper: Wu J Z, Ge Y, Wang X, et al. Tune-a-video: One-shot tuning of image diffusion models for text-to-video generation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 7623-7633. Introduction: https://tuneavideo.github.
小白狮ww6 个月前
图像处理·人工智能·深度学习·机器学习·音视频·视频生成·ai 视频
LTX-Video 高效视频生成模型,一键处理图片&文字LTX-Video 是由 Lightricks 在 2024 年开发的一种视频生成模型,这种模型采用了 transformer 和 Video-VAE 技术,能够高效生成高分辨率视频。此外,LTX-Video 支持多种视频生成方式,包括从文本到视频和从图像到视频。
杀生丸学AI6 个月前
人工智能·大模型·aigc·文生视频·svd·扩散模型·视频生成
【AIGC】SYNCAMMASTER:多视角多像机的视频生成标题:SYNCAMMASTER: SYNCHRONIZING MULTI-CAMERA VIDEO GENERATION FROM DIVERSE VIEWPOINTS 主页:https://jianhongbai.github.io/SynCamMaster/ 代码:https://github.com/KwaiVGI/SynCamMaster
Struart_R6 个月前
人工智能·计算机视觉·3d·风格迁移·扩散模型·视频生成·3dgs
StyleGaussian: Instant 3D Style Transferwith Gaussian Splatting 论文解读目录一、概述二、相关工作1、辐射场2、3D编辑3、风格迁移三、StyleGaussian1、特征嵌入2、风格迁移
AI生成未来6 个月前
视频编辑·视频生成
视频编辑最新SOTA!港中文&Adobe等发布统一视频生成传播框架——GenProp文章链接:https://arxiv.org/pdf/2412.19761 项目链接:https://genprop.github.io
Struart_R6 个月前
人工智能·深度学习·计算机视觉·3d·transformer·扩散模型·视频生成
HunyuanVideo: A Systematic Framework For LargeVideo Generative Models 论文解读目录一、概述二、相关工作三、Hunyuan Video1、总论2、数据预处理2.1数据过滤2.2数据注释
AI生成未来6 个月前
图像生成·图像编辑·视频生成
NeurIPS 2024 | 像素级LLM实现图像视频理解、生成、分割和编辑大统一(昆仑万维等)Accepted by NeurIPS 2024文章链接:https://arxiv.org/pdf/2412.19806 项目链接:https://vitron-llm.github.io/ Github链接:https://github.com/SkyworkAI/Vitron
AI生成未来6 个月前
视频生成·ai生成视频·文本生视频
无需训练!多提示视频生成最新SOTA!港中文&腾讯等发布DiTCtrl:基于MM-DiT架构文章链接:https://arxiv.org/pdf/2412.18597 项目链接:https://github.com/TencentARC/DiTCtrl
v_JULY_v6 个月前
视频生成·扩散transformer·dit·机器人动作预测·扩散过程·改造dit·清华pad
Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT:近频繁用于视频生成与机器人动作预测(含清华PAD详解)本文最开始属于此文《视频生成Sora的全面解析:从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等》