青稞Talk预告!面向自动驾驶与物理世界对齐的视频生成模型

青稞Talk预告!面向自动驾驶与物理世界对齐的视频生成模型

为何现有视频生成模型难以理解物理世界,无法生成运动合理的视频结果?基于认知心理学研究,我们重新审视现有视频生成模型,认为生成运动合理的视频其实是和生成高视觉质量视频同样困难的任务,而现有一阶段建模方式更关注视觉质量,缺少对运动的关注。

为此,香港科技大学(广州)的研究者提出了两阶段模型 Motion Dreamer,通过生成中间运动表示,将运动和视觉质量进行解耦,从而生成运动合理且高视觉质量的视频。

复制代码
Abs:https://arxiv.org/pdf/2412.00547

1月14日19:00 ,青稞Talk 第37期,香港科技大学(广州)博士生许添硕,将直播分享《Motion Dreamer:面向自动驾驶与物理世界对齐的视频生成模型》。

许添硕,香港科技大学(广州)博士生,导师为陈颖聪教授,研究兴趣是自动驾驶、视频生成。

相关推荐
老夫的码又出BUG了1 分钟前
预测式AI与生成式AI
人工智能·科技·ai
AKAMAI9 分钟前
AI 边缘计算:决胜未来
人工智能·云计算·边缘计算
flex888816 分钟前
输入一个故事主题,使用大语言模型生成故事视频【视频中包含大模型生成的图片、故事内容,以及音频和字幕信息】
人工智能·语言模型·自然语言处理
TTGGGFF24 分钟前
人工智能:大语言模型或为死胡同?拆解AI发展的底层逻辑、争议与未来方向
大数据·人工智能·语言模型
张艾拉 Fun AI Everyday26 分钟前
从 ChatGPT 到 OpenEvidence:AI 医疗的正确打开方式
人工智能·chatgpt
mwq301231 小时前
位置编码的技术演进线路:从绝对到相对,再到几何一致性
人工智能
mwq301231 小时前
外推性-位置编码的阿喀琉斯之踵
人工智能
DP+GISer1 小时前
基于站点数据进行遥感机器学习参数反演-以XGBOOST反演LST为例(附带数据与代码)试读
人工智能·python·机器学习·遥感与机器学习
boonya2 小时前
Langchain 和LangGraph 为何是AI智能体开发的核心技术
人工智能·langchain
地平线开发者2 小时前
LLM 训练基础概念与流程简介
算法·自动驾驶