青稞Talk预告!面向自动驾驶与物理世界对齐的视频生成模型

青稞Talk预告!面向自动驾驶与物理世界对齐的视频生成模型

为何现有视频生成模型难以理解物理世界,无法生成运动合理的视频结果?基于认知心理学研究,我们重新审视现有视频生成模型,认为生成运动合理的视频其实是和生成高视觉质量视频同样困难的任务,而现有一阶段建模方式更关注视觉质量,缺少对运动的关注。

为此,香港科技大学(广州)的研究者提出了两阶段模型 Motion Dreamer,通过生成中间运动表示,将运动和视觉质量进行解耦,从而生成运动合理且高视觉质量的视频。

复制代码
Abs:https://arxiv.org/pdf/2412.00547

1月14日19:00 ,青稞Talk 第37期,香港科技大学(广州)博士生许添硕,将直播分享《Motion Dreamer:面向自动驾驶与物理世界对齐的视频生成模型》。

许添硕,香港科技大学(广州)博士生,导师为陈颖聪教授,研究兴趣是自动驾驶、视频生成。

相关推荐
Libraeking9 小时前
视觉篇:Canvas 自定义绘图与高级动画的华丽圆舞曲
android·经验分享·android jetpack
后端小肥肠9 小时前
别再盲目抽卡了!Seedance 2.0 成本太高?教你用 Claude Code 100% 出片
人工智能·aigc·agent
每日新鲜事9 小时前
热销复盘:招商林屿缦岛203套售罄背后的客户逻辑分析
大数据·人工智能
Coder_Boy_9 小时前
基于SpringAI的在线考试系统-考试系统开发流程案例
java·数据库·人工智能·spring boot·后端
挖坑的张师傅9 小时前
对 AI Native 架构的一些思考
人工智能
LinQingYanga10 小时前
极客时间多模态大模型训练营毕业总结(2026年2月8日)
人工智能
pccai-vip10 小时前
过去24小时AI创业趋势分析
人工智能
SEO_juper10 小时前
AI SEO实战:整合传统技术与AI生成搜索的优化框架
人工智能·chatgpt·facebook·seo·geo·aeo
pp起床10 小时前
Gen_AI 补充内容 Logit Lens 和 Patchscopes
人工智能·深度学习·机器学习
方见华Richard10 小时前
自指-认知几何架构 可行性边界白皮书(务实版)
人工智能·经验分享·交互·原型模式·空间计算