技术栈
画面生成
具身智能之心
3 小时前
具身智能
·
wam
·
画面生成
RoboAlign-R1:对齐任务与物理规则!从 “画面生成” 到 “决策可用”
机器人视频世界模型(Robot Video World Model)是当前具身智能领域的核心技术。它的作用是让机器人在不真正执行动作的情况下,基于视觉观测与动作序列预测未来的场景变化,从而在 “想象” 中完成规划、推理与决策。相比于通用的视频生成,机器人世界模型有着更严格的要求:生成画面必须遵循指令、动作合理、接触真实、物理可信,否则无法用于真实机器人控制。
我是有底线的