技术栈
视频生成
这张生成的图像能检测吗
9 天前
人工智能
·
贪心算法
·
视频生成
·
多模态大语言模型
(论文速读)基于M-LLM的高效视频理解视频帧选择
论文题目:M-LLM Based Video Frame Selection for Efficient Video Understanding(基于M-LLM的高效视频理解视频帧选择)
AI生成未来
10 天前
aigc
·
多模态
·
视频编辑
·
视频生成
·
世界模拟器
·
世界交互
超越Veo和Runway!可灵开源Kling-Omni:一个模型通吃视频生成、剪辑和多模态推理!
论文链接:https://arxiv.org/pdf/2512.16776 体验链接:https://app.klingai.com/global/omni/new
HyperAI超神经
10 天前
人工智能
·
ai
·
音视频
·
视频生成
·
neurlps 2025
入选NeurIPS 2025,智源/北大/北邮提出多流控制视频生成框架,基于音频解混实现精确音画同步
相较于文本,音频天然具备连续时间结构和丰富的动态信息,能够为视频生成提供更精细的时序控制。因此,随着视频生成模型的发展,音频驱动的视频生成也逐渐成为多模态生成领域的重要研究方向。目前,相关研究已覆盖说话人动画、音乐驱动视频以及音画同步生成等多个场景,但在复杂视频内容中,实现稳定且精确的音画对齐仍然具有较高难度。
今夕资源网
14 天前
人工智能
·
数字人
·
视频生成
·
ai工具
·
infinite talk
·
对口型图像转视频
·
无限时长
[AI工具]Infinite Talk数字人对口型图像转视频AI工具 支持无限时长视频生成
Infinite Talk数字人对口型图像转视频AI工具 支持无限时长视频生成 InfiniteTalk AI:音频驱动的视频生成框架 InfiniteTalk AI是由 MeiGen AI 开发的先进音频驱动视频生成框架,
AI生成未来
15 天前
lora
·
视频生成
·
视频交互
·
视频理解
·
mm-dit
ICCV`25 | 视频交互“随心所欲”!复旦&通义万相等开源DreamRelation:让想象力从此无边界
项目链接:https://dreamrelation.github.io/ 文章链接:https://openaccess.thecvf.com/content/ICCV2025/papers/Wei_DreamRelation_Relation-Centric_Video_Customization_ICCV_2025_paper.pdf 开源链接:https://github.com/ali-vilab/DreamRelation
AI生成未来
18 天前
aigc
·
视频编辑
·
视频生成
NeurIPS 2025 | 硬刚可灵1.5!阿里通义&清华等开源Wan-Move:指哪动哪的“神笔马良”
论文链接:https://arxiv.org/pdf/2512.08765 项目链接:https://github.com/ali-vilab/Wan-Move
般若Neo
19 天前
视频生成
·
ai视频
AI视频生成技术原理与行业应用 - AI视频技术原理与架构
AI视频技术正以数据驱动、模型赋能的方式重塑视觉内容创作,其背后是复杂的技术范式演进、精密的架构设计与高质量数据支撑。本文将基于北京大学相关研究内容,系统拆解AI视频生成的核心逻辑、技术架构、关键组件及训练数据核心要素,带大家全面理解这项革命性技术。
般若Neo
20 天前
视频生成
·
ai视频
AI视频生成技术原理与行业应用 - AI视频生成能力与突破
AI视频生成技术正处于高速迭代的关键阶段,一边在分辨率、可控性等核心指标上实现突破性进展,具备了专业级应用潜力;一边仍面临时序一致性、物理逻辑等核心瓶颈。本文基于北京大学相关研究成果,系统梳理AI视频生成的能力现状、评估体系与主流模型,为行业探索与实际应用提供参考。
般若Neo
20 天前
视频生成
·
ai视频
·
行业应用
AI视频生成技术原理与行业应用 - AI视频行业应用现状
AI视频生成技术已不再是局限于实验室的前沿探索,而是深度渗透到影视娱乐、营销、文旅、教育、医疗、新闻媒体等多个领域,从单一的创意辅助工具,升级为驱动行业全流程重构的核心引擎。其核心价值集中在“降本增效”与“创意赋能”,既系统性改变了行业成本结构,也催生了全新的内容形态与商业模式。
HyperAI超神经
20 天前
人工智能
·
ai
·
开源
·
编程语言
·
向量数据库
·
视频生成
·
视觉理解
活动回顾丨 北大/清华/Zilliz/MoonBit共话开源,覆盖视频生成/视觉理解/向量数据库/AI原生编程语言
当下,AI 产业正迎来一个前所未有的发展周期。大模型的规模化应用、AI 原生软件体系的重构、多模态基础模型的加速演进,让学界与产业界的边界变得愈发模糊。无论是视频生成对音画同步的精细化要求、终端侧视觉模型的高效推理优化,还是新一代 AI 原生编程语言的出现,都在推动一个清晰的趋势——产研协同与开源生态,正在成为 AI 时代最关键的创新范式。
OpenBayes
22 天前
人工智能
·
深度学习
·
数据集
·
图像识别
·
语音合成
·
图像生成
·
视频生成
VibeVoice-Realtime TTS重构实时语音体验;覆盖9大真实场景,WenetSpeech-Chuan让模型听懂川话
公共资源速递5 个公共数据集:* VOccl3D 三维人体遮挡视频数据集* Spatial-SSRL-81k 空间感知自监督数据集
万里鹏程转瞬至
24 天前
prompt
·
aigc
·
视频生成
wan2.1-2.2 官方提示词改写(prompt extend)模块
这里只分析中文结构的提示词。通过对于wan2.1与wan2.2两个版本,可以发现wan2.2的提示词质量更高,能体现I2V与T2V的任务差距。
AI生成未来
1 个月前
aigc
·
音视频
·
视频生成
·
音频驱动视频
港科大等提出音频驱动多人视频生成新范式 AnyTalker,解锁任意数量角色间的自然互动!
文章链接:https://arxiv.org/abs/2511.23475 开源链接:https://github.com/HKUST-C4G/AnyTalker 项目链接:https://hkust-c4g.github.io/AnyTalker-homepage
AI生成未来
1 个月前
人工智能
·
扩散模型
·
视频编辑
·
视频生成
ICCV 2025 | 北大王选所推出AnyPortal:像素级操控视频背景,前景细节100%保留!
文章链接:https://arxiv.org/pdf/2509.07472 主页:https://gaowenshuo.github.io/AnyPortal/ Git链接:https://github.com/gaowenshuo/AnyPortalCode
AI生成未来
1 个月前
aigc
·
扩散模型
·
视频生成
·
长视频
南洋理工&腾讯最新Rolling Forcing解决流视频生成长期误差累积,连贯如一且长达数分钟!
论文链接:https://arxiv.org/pdf/2509.25161 项目链接:https://kunhao-liu.github.io/Rolling_Forcing_Webpage/
小白狮ww
1 个月前
人工智能
·
深度学习
·
音视频
·
文生视频
·
图片处理
·
视频生成
·
图生视频
从几秒走向几分钟:长视频生成进入 LongCat 时刻
在短短一年里,AI 视频生成已经从「炫技几秒」进化到「真的能讲故事」。而真正能撑起国内开源长视频创作的一员猛将,也终于登场了——来自美团的 LongCat-Video。 它的能力很好概括: 一句话?给你拍成一段剧情; 一张图?它能让画面自己动起来; 视频断在一半?它立刻替你续拍下去。 LongCat-Video 基于 136 亿参数的视频生成大模型,同时支持文字转视频、图片转视频和视频续写,让创意能够持续往前推进。它不是只会做几秒炫酷短片,而是从训练阶段就融入了长时序逻辑,让光影不飘、角色不丢、剧情不突兀
CV实验室
1 个月前
人工智能
·
计算机视觉
·
3d
·
论文
·
音视频
·
视频生成
CV论文速递:覆盖视频生成与理解、3D视觉与运动迁移、多模态与跨模态智能、专用场景视觉技术等方向 (11.17-11.21)
本周精选10篇CV领域前沿论文,覆盖视频生成与理解、3D视觉与运动迁移、多模态与跨模态智能、专用场景视觉技术等方向。全部300多篇论文已经整理好,感兴趣的自取!
山顶夕景
1 个月前
大模型
·
多模态
·
视频生成
·
sora
【LLM-video】HunyuanVideo-1.5视频生成模型
解决视频生成中的高效推理和高视觉质量问题:1、轻量级高性能架构:提出了一个高效的架构,集成了一个83亿参数的扩散变压器(DiT)和一个3D因果VAE,实现了空间维度上的16倍压缩和时间轴上的4倍压缩。
沉迷单车的追风少年
2 个月前
人工智能
·
深度学习
·
计算机视觉
·
aigc
·
音视频
·
视频生成
·
视频超分
Diffusion Models与视频超分(3): 解读当前最快和最强的开源模型FlashVSR
Diffusion Models专栏文章汇总:入门与实战前言:FlashVSR 是首个实现近实时(17 FPS)、流式处理、支持 1440p 的扩散视频超分辨率模型,通过三阶段蒸馏、局部稀疏注意力和微型条件解码器,兼顾速度、质量与可扩展性。
这张生成的图像能检测吗
2 个月前
人工智能
·
计算机视觉
·
视觉语言模型
·
视频生成
StreamingT2V:从文本生成一致、动态和可扩展的长视频
论文题目:StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text(从文本生成一致、动态和可扩展的长视频)