PhysicalAgent：迈向通用认知机器人的基础世界模型框架

核心定位与动机

当前机器人操控领域存在两大关键瓶颈：一是主流视觉-语言-动作（VLM）模型（如RT-1/RT-2、OpenVLA）依赖任务与平台特定微调，换机器人或环境后鲁棒性骤降；二是基于世界模型的方法（如DreamGen）需依赖专门训练的预测模型（如Cosmos Predict），且训练数据需精心筛选机器人-场景对，通用性受限。

为解决这些问题，研究团队提出PhysicalAgent------一个融合迭代推理、扩散视频生成与闭环执行的机器人操控框架。其核心思路是：用基础模型（视觉语言模型、扩散视频模型）承担感知与推理的"重活"，仅保留轻量级机器人适配层负责执行，最终实现跨形态、跨任务的通用操控，同时通过迭代修正提升执行鲁棒性。

原文链接：PhysicalAgent：迈向通用认知机器人的基础世界模型框架

架构设计：泛化性的核心逻辑

该框架的核心原则是感知与推理模块不绑定特定机器人形态，仅需为不同机器人训练轻量级骨骼检测模型（计算开销小、数据需求低）。这种设计的合理性源于三点：

视频生成模型的天然优势：主流视频生成模型（如Wan 2.2、Seedance 1.0 Pro）预训练了海量多模态数据（含视频、第一视角活动记录），已隐含对物理过程、物体交互的理解；且支持API调用，无需本地训练即可快速集成，模型更新时直接替换即可。
人类式推理的对齐：视频生成模型能通过文本指令生成"执行过程的视觉想象"，与人类思考动作的方式一致------无需了解机器人内部结构，仅通过指令即可生成合理动作的视觉描述。
跨形态泛化的实现：如figure 2所示，同一感知-推理 pipeline 能为三种不同形态的机器人（双臂UR3、Unitree G1人形、仿真GR1）生成不同操控任务（如捡球、开笔记本、传递保温杯）的视频，无需针对特定机器人重训，直接证明了架构的跨形态适配能力。

视觉语言模型（VLM）的接地推理作用

VLM是该框架的"认知核心"，通过多次调用实现"指令-环境-执行"的接地，而非单次规划。具体作用分为四步：

任务分解：接收自然语言指令与初始场景图像后，将高level任务拆分为原子子任务（如"抓取物体""稳定容器""插入插槽"），搭建抽象规划与具体执行的桥梁。
场景上下文描述：为每个子任务生成带约束的文本提示（需包含物体空间关系、物理约束、机器人适配性），用于指导后续扩散模型生成可行的动作视频。
执行监控与修正：每次执行后，VLM对比"执行前-执行后"的图像，判断子任务完成情况，并输出三种决策：继续执行下一个子任务、重试当前动作、返回高层重新规划------这种闭环逻辑是长任务鲁棒性的关键。
模型无关性：框架不绑定特定VLM，实验中主要使用Gemini Pro Flash，但GPT-4o、Claude-3.5 Sonnet、QwenVL等模型均可直接替换，降低对单一模型的依赖。

扩散基世界模型：动作生成的新范式

该框架的核心创新是将"动作生成"重构为"条件视频合成"，而非传统的直接学习控制策略。具体逻辑如下：

核心原理：使用现成的"图像-视频"基础模型（实验中用Wan 2.2，因速度与质量平衡），输入机器人当前相机帧与文本指令（来自VLM的子任务描述），生成物理合理的短动作视频------视频需包含物体动态、接触事件、场景因果关系（如"抓取杯子→移动到桌面"的连贯过程）。
与现有方法的差异：对比DreamGen等依赖专门预测模型的方法，该框架直接使用通用"图像-视频"模型，无需为特定机器人-场景对训练模型，大幅降低泛化门槛。
三大优势 ：
- 降低部署成本：新机器人仅需训轻量级适配层，无需重训"图像-视频"模型；
- 快速迭代：当更优的"图像-视频"模型（如Seedance 1.0 Pro、Google Veo 2）出现时，直接替换即可，无需改动适配层；
- 可解释性：生成的视频可被人类检查，便于发现安全风险（如"动作可能碰倒物体"），提升人机协作安全性。

机器人适配层：从视频到电机指令的落地

生成的动作视频需转化为机器人能执行的电机指令，这一步是框架中唯一需机器人特定适配的部分，流程如figure 3所示：

关键点提取：用微调后的YOLO11-Pose模型，从合成视频的每帧中提取机器人关节关键点------以双臂机器人为例，每臂需提取6个关节+1个抓手的关键点，共28个坐标特征；再计算关节间长度（12个特征），最终形成40维特征向量/帧。
回归器预测电机指令 ：用"多输出回归器"（基于HistGradientBoostingRegressor，超参数为max_iter=500、learning rate=0.1、min samples leaf=20、early stopping=True）将40维特征映射为低level电机指令。
适配层训练细节 ：
- 数据量：每个新机器人仅需约1000个样本，30分钟即可收集完成；
- YOLO11-Pose训练：预训练后训150轮，batch size=8，图像尺寸=1280，早停耐心=50；优化器参数为lr0=0.01、momentum=0.937、weight_decay=0.0005，热身3轮；用RTX 4090的4个worker训练，冻结前10层以保留预训练特征；
- 兼容性：支持第三人称与第一视角相机，适配不同机器人的感知配置。

实验验证：效果与泛化性

实验分两类，分别验证"跨形态/感知模态的泛化性"与"迭代执行的鲁棒性"。

实验1：形态与感知模态研究

目标：验证该框架是否优于任务特定基线，以及跨形态泛化能力。
设置：
- 平台：双臂UR3、Unitree G1人形、仿真GR1；
- 任务：13个操控任务（如盒子操作、捡球、按按钮、开冰箱等）；
- 基线：ACT、RVT-LF、PerActLF、PerAct2；
- 流程：每个任务-平台对生成30个视频并执行， success rate按二分类统计。
关键结果 ：
- 方法影响：ANOVA分析显示，该框架的success rate显著优于基线（F(4,60)=5.04，p=0.0014），验证了扩散视频生成思路的有效性；
- 平台影响：ANOVA显示平台对性能无显著影响（F(2,36)=2.01，p=0.1485）------虽G1人形机器人的中位数success rate最高（因与人类数据对齐），但差异未达统计显著水平，说明框架跨形态泛化能力稳定，推翻了"特定形态更优"的初始假设。

实验2：物理机器人的迭代执行

目标：验证迭代"Perceive→Plan→Reason→Act" pipeline在物理场景的鲁棒性。
设置：
- 平台：物理双臂UR3、物理Unitree G1人形；
- 任务：10个固定操控任务；
- 流程：生成计划与视频→执行→评估结果→可恢复则重规划，最多10次尝试；
- 指标：最终success rate、首次尝试success rate、成功所需迭代次数、生存曲线（n次迭代后未完成任务比例）。
关键结果：

最终success rate：两个平台均达80%；
首次尝试success rate：UR3为30%，G1为20%；
迭代次数：UR3平均2.25次，G1平均2.75次；
生存曲线：如figure 6所示，前3次迭代后未完成任务比例骤降，4次迭代后几乎所有可完成任务均成功------证明迭代修正能有效弥补首次执行的不足，是提升鲁棒性的核心。

参考

1\]PhysicalAgent: Towards General Cognitive Robotics with Foundation World Models ### 具身求职内推来啦 [近50家主流具身公司，校招\&社招\&实习均可](https://mp.weixin.qq.com/s/jL20AolSpJJqu8F0cOMmpQ) ### 国内最大的具身智能全栈学习社区来啦！ [具身智能之心知识星球：国内最大的具身智能全栈技术社区来啦！](https://mp.weixin.qq.com/s/aLRwG433sA0QjzPZecp9OQ) ### 推荐阅读 [从零部署π0,π0.5！好用，高性价比！面向具身科研领域打造的轻量级机械臂](https://mp.weixin.qq.com/s/4K7QBk7ucXDvR-DLXk6DlA) [工业级真机教程+VLA算法实战（pi0/pi0.5/GR00T/世界模型等）](https://mp.weixin.qq.com/s/kHXwMdtqT9fTouVg9glbAQ) [具身智能算法与落地平台来啦！国内首个面向科研及工业的全栈具身智能机械臂](https://mp.weixin.qq.com/s/HvuMpbIoAe1bSlQBHCFgiQ) [VLA/VLA+触觉/VLA+RL/具身世界模型等！具身大脑+小脑算法与实战全栈路线来啦\~](https://mp.weixin.qq.com/s/x6p9VVtZXUdyBqVOnmUqcg) [MuJoCo具身智能实战：从零基础到强化学习与Sim2Real](https://mp.weixin.qq.com/s/9h8DNg2P3SzUwcoOF7DliA) [从零训练你的足式机器人！让你的足式机器人真正动起来\~](https://mp.weixin.qq.com/s/foYf_g9PvFVDJG2jjQE_-A) [具身领域的目标导航到底是什么？有哪些主流方法？](https://mp.weixin.qq.com/s/92oaQWQ18lNguDPgctIlSQ) [Diffusion Policy在具身智能领域是怎么应用的？为什么如此重要？](https://mp.weixin.qq.com/s/JSMQG9bGPpiX9aSkGI_3wA) [具身智能视觉语言动作模型，VLA怎么入门？](https://mp.weixin.qq.com/s/UhO0yLT74tA8WyCspCKkRg) [视觉语言导航的主流方法有哪些？是怎么用的？](https://mp.weixin.qq.com/s/AmxbgeL4X40KoVBaFzfmtQ) ### 1v1 科研论文辅导来啦！ [重磅！具身智能之心论文辅导来啦（近20+方向，顶会/顶刊/SCI/EI/中文核心/申博等）](https://mp.weixin.qq.com/s/J9ECh3r3rzjNrajAjtumFQ)