技术栈
neurlps 2025
HyperAI超神经
4 小时前
人工智能
·
ai
·
音视频
·
视频生成
·
neurlps 2025
入选NeurIPS 2025,智源/北大/北邮提出多流控制视频生成框架,基于音频解混实现精确音画同步
相较于文本,音频天然具备连续时间结构和丰富的动态信息,能够为视频生成提供更精细的时序控制。因此,随着视频生成模型的发展,音频驱动的视频生成也逐渐成为多模态生成领域的重要研究方向。目前,相关研究已覆盖说话人动画、音乐驱动视频以及音画同步生成等多个场景,但在复杂视频内容中,实现稳定且精确的音画对齐仍然具有较高难度。
我是有底线的