《相关研究》008:世界模型

世界模型指给定当前状态和一个动作,它预测下一步会变成什么状态。本质是一个模拟器或预测器。例如:"我拿起杯子 → 杯子的位置变了,水可能洒出来"。

视觉语言行为模型指给定视觉观察和人类语言指令,它直接输出机器人要执行的动作。本质是一个策略网络或控制器。例如:"看到红色杯子 + 听到'拿起杯子'指令 → 输出机械臂的关节角度"。

世界模型:通常使用无标签或自监督的视频/状态序列数据。学习的是物理常识(如物体运动学、动力学),不需要动作标签。训练目标是最小化预测误差。

VLA模型:必须使用有动作标签的机器人操控数据。通常需要(图像,指令,动作轨迹)三元组。训练目标是最大化给定观测和指令下正确动作的概率。

VLA + 世界模型 = 更强的智能体 :VLA负责"做什么"(策略),世界模型负责"会发生什么"(模拟)。

典型应用:

规划:VLA采样多个动作,世界模型预测每个动作的未来结果,VLA选择结果最好的动作执行。

想象增强:VLA在实际执行前,先在世界模型中"想象"执行后果,进行试错(类似AlphaGo的自我对弈)。

数据生成:用世界模型生成海量虚拟机器人交互数据,用来训练VLA(解决真实数据稀缺问题)。

想要简单直接:先做VLA(端到端模仿学习),快速出效果。想要鲁棒、适应性强:在VLA中加入世界模型作为内部模拟器,实现想象规划。目标是通用机器人:两者缺一不可------VLA负责意图,世界模型负责常识。

相关推荐
Jooolin40 分钟前
从 DeepSeek、Qwen 到 GPT:一次企业级 AI 知识库项目的模型选型复盘
人工智能·云原生·ai编程
不羁的木木1 小时前
HarmonyOS AI开发提效工具:DevEco Code & DevEco CLI - 实战:端侧AI文字识别应用
人工智能·华为·harmonyos
蓝速科技1 小时前
蓝速科技 AI 数字人导办能力实测与人机协同价值评估
人工智能·科技
云和数据.ChenGuang1 小时前
T5大模型
人工智能·机器人·pandas·数据预处理·数据训练
哈哈,柳暗花明1 小时前
人工智能专业术语详解(O)
人工智能·专业术语
不羁的木木1 小时前
HarmonyOS AI开发提效工具:DevEco Code & DevEco CLI - 初识与配置指南
人工智能·华为·harmonyos
Kagol2 小时前
Superpowers GSD gstack AgentSkills深度测评
前端·人工智能
一切皆是因缘际会2 小时前
存算一体芯片软件双模式:单字符驱动网络(普通CPU也能跑)
人工智能·物联网·ai·系统架构·架构设计·发布订阅·存算一体
字节逆旅2 小时前
Claude Code Router 接入过程的爬坑记录
人工智能·claude
江畔柳前堤2 小时前
github实战指南01-账号配置与 SSH 密钥
运维·人工智能·深度学习·ssh·github·pyqt·信号处理