DreamVLA:世界知识驱动的视觉-语言-动作新范式最近在视觉-语言-动作(VLA)模型方面的进展展示了将图像生成与动作预测相结合以提高机器人操作泛化能力和推理能力的潜力。然而,现有方法局限于具有挑战性的基于图像的预测,存在冗余信息且缺乏全面且关键的世界知识,包括动态、空间和语义信息。为了解决这些局限性,我们提出了DreamVLA,一个新颖的VLA框架,集成了综合世界知识预测以实现逆动力学建模,从而建立操作任务的感知-预测-行动循环。具体来说,DreamVLA引入了动态区域引导的世界知识预测,结合空间和语义线索,为动作规划提供了紧凑而全面的表示。这种设计符