neurlps 2025 - neurlps 2025技术,学习,经验文章

HyperAI超神经

7 个月前

入选NeurIPS 2025，智源/北大/北邮提出多流控制视频生成框架，基于音频解混实现精确音画同步相较于文本，音频天然具备连续时间结构和丰富的动态信息，能够为视频生成提供更精细的时序控制。因此，随着视频生成模型的发展，音频驱动的视频生成也逐渐成为多模态生成领域的重要研究方向。目前，相关研究已覆盖说话人动画、音乐驱动视频以及音画同步生成等多个场景，但在复杂视频内容中，实现稳定且精确的音画对齐仍然具有较高难度。