《相关研究》008:世界模型

世界模型指给定当前状态和一个动作,它预测下一步会变成什么状态。本质是一个模拟器或预测器。例如:"我拿起杯子 → 杯子的位置变了,水可能洒出来"。

视觉语言行为模型指给定视觉观察和人类语言指令,它直接输出机器人要执行的动作。本质是一个策略网络或控制器。例如:"看到红色杯子 + 听到'拿起杯子'指令 → 输出机械臂的关节角度"。

世界模型:通常使用无标签或自监督的视频/状态序列数据。学习的是物理常识(如物体运动学、动力学),不需要动作标签。训练目标是最小化预测误差。

VLA模型:必须使用有动作标签的机器人操控数据。通常需要(图像,指令,动作轨迹)三元组。训练目标是最大化给定观测和指令下正确动作的概率。

VLA + 世界模型 = 更强的智能体 :VLA负责"做什么"(策略),世界模型负责"会发生什么"(模拟)。

典型应用:

规划:VLA采样多个动作,世界模型预测每个动作的未来结果,VLA选择结果最好的动作执行。

想象增强:VLA在实际执行前,先在世界模型中"想象"执行后果,进行试错(类似AlphaGo的自我对弈)。

数据生成:用世界模型生成海量虚拟机器人交互数据,用来训练VLA(解决真实数据稀缺问题)。

想要简单直接:先做VLA(端到端模仿学习),快速出效果。想要鲁棒、适应性强:在VLA中加入世界模型作为内部模拟器,实现想象规划。目标是通用机器人:两者缺一不可------VLA负责意图,世界模型负责常识。

相关推荐
深念Y2 小时前
Harness Engineering:我的HomeSense Agent 架构演进
人工智能·算法·架构·智能家居·agent·小爱同学·harness
花千树-0102 小时前
基于 IndexTTS2 的数字人语音生成 Pipeline 设计
人工智能·aigc·ai编程·tts
阳艳讲ai2 小时前
AI 培训陪跑制造工厂 2026 前瞻:从人工生产到 AI 策略创作的智能转型全景图
人工智能
SCBAiotAigc2 小时前
2026.4.10:docker desktop内网环境安装教程
人工智能·docker·容器·具身智能
Omics Pro2 小时前
马普所:生命蛋白质宇宙聚类
数据库·人工智能·算法·机器学习·数据挖掘·aigc·聚类
数据猿视觉2 小时前
可酷实现AI无人直播关键技术突破,推动直播行业迈入智能化新阶段
人工智能
江瀚视野2 小时前
小马智行发布PonyWorld世界模型2.0,如何改变市场?
人工智能
XM_jhxx2 小时前
厦门晚报报道简会入选省首批“小快轻准”数字化产品
大数据·人工智能
Ivanqhz2 小时前
SMT(Satisfiability Modulo Theories,基于模理论的可满足性)
人工智能·算法·机器学习