青稞Talk预告!面向自动驾驶与物理世界对齐的视频生成模型

青稞Talk预告!面向自动驾驶与物理世界对齐的视频生成模型

为何现有视频生成模型难以理解物理世界,无法生成运动合理的视频结果?基于认知心理学研究,我们重新审视现有视频生成模型,认为生成运动合理的视频其实是和生成高视觉质量视频同样困难的任务,而现有一阶段建模方式更关注视觉质量,缺少对运动的关注。

为此,香港科技大学(广州)的研究者提出了两阶段模型 Motion Dreamer,通过生成中间运动表示,将运动和视觉质量进行解耦,从而生成运动合理且高视觉质量的视频。

Abs:https://arxiv.org/pdf/2412.00547

1月14日19:00 ,青稞Talk 第37期,香港科技大学(广州)博士生许添硕,将直播分享《Motion Dreamer:面向自动驾驶与物理世界对齐的视频生成模型》。

许添硕,香港科技大学(广州)博士生,导师为陈颖聪教授,研究兴趣是自动驾驶、视频生成。

相关推荐
伊一大数据&人工智能学习日志11 分钟前
自然语言处理NLP 04案例——苏宁易购优质评论与差评分析
人工智能·python·机器学习·自然语言处理·数据挖掘
刀客12316 分钟前
python3+TensorFlow 2.x(六)自编码器
人工智能·python·tensorflow
微刻时光17 分钟前
影刀RPA中级证书-Excel进阶-开票清单
经验分享·python·低代码·rpa·影刀·影刀证书·影刀实战
大模型之路32 分钟前
Grok-3:人工智能领域的新突破
人工智能·llm·grok-3
闻道且行之1 小时前
LLaMA-Factory|微调大语言模型初探索(4),64G显存微调13b模型
人工智能·语言模型·llama·qlora·fsdp
喝不完一杯咖啡1 小时前
【AI时代】可视化训练模型工具LLaMA-Factory安装与使用
人工智能·llm·sft·llama·llama-factory
huaqianzkh1 小时前
理解构件的3种分类方法
人工智能·分类·数据挖掘
后端码匠1 小时前
Spring Boot3+Vue2极速整合:10分钟搭建DeepSeek AI对话系统
人工智能·spring boot·后端
用户231434978141 小时前
使用 Trae AI 编程平台生成扫雷游戏
人工智能·设计
神经美学_茂森2 小时前
神经网络防“失忆“秘籍:弹性权重固化如何让AI学会“温故知新“
人工智能·深度学习·神经网络