VideoWorld 2:一种从真实世界视频学习可迁移知识的模型具身智能与视频理解领域一直有个核心难题,即如何让AI像人类一样,直接看无标注的真实视频,就能学会折纸、机器人操作这类复杂长时程技能,并且能够泛化到新环境?字节跳动Seed实验室联合北京交通大学提出了VideoWorld 2模型,首次研究了直接从原始真实世界视频中学习复杂长时程任务可迁移知识的问题。其核心贡献是提出动力学增强的隐式动力学模型(dLDM),将动作动力学与视觉外观解耦。首先,由预训练的视频扩散模型负责视觉外观建模,使dLDM能够学习聚焦于紧凑且有意义的任务相关动力学的隐式编码。随后,对这些隐式编