星动纪元的机器人大模型 VPP，泛化能力效果如何？与 VLA 技术的区别是什么？

点击上方关注 "终端研发部 "

复制代码

```go
设为"星标"，和你一起掌握更多数据库知识

```

VPP 利用了大量互联网视频数据进行训练，直接学习人类动作，减轻了对于高质量机器人真机数据的依赖，且可在不同人形机器人本体之间自如切换，这有望大大加速人形机器人的商业化落地。

在今年的 ICML 2025 中，VPP 从超 12000 篇投稿里脱颖而出，入选占比不到 2.6% 的 Spotlight 论文。

VPP 模型通过将视频扩散模型的泛化能力引入到通用机器人操作策略中，解决了以往机器人推理速度慢的问题。VPP 能够实时预测未来动作，从而极大提升机器人的策略泛化能力。值得注意的是，这一模型已在国际机器学习大会（ICML2025）上获得 Spotlight 认可，展现出其研究的前沿性和重要性。

VPP 基于 AIGC 视频扩散模型而来。如图所示，VPP 分成两阶段的学习框架，最终实现基于文本指令的视频动作生成。第一阶段利用视频扩散模型学习预测性视觉表征；第二阶段通过 Video Former 和 DiT 扩散策略进行动作学习。

VPP 的一大亮点在于其预测能力。以往机器人策略（例如：VLA 模型）往往只能根据当前观测进行动作学习，机器人策略需要先理解指令和场景，再执行。VPP 能够提前预知未来的场景，让机器人 "看着答案" 行动，大大增强泛化能力。通过该模型，机器人的执行速度能够实现 "更快一步"，在仅需150毫秒的推理时间内，预测频率达到6-10Hz，控制频率更是超过50Hz，极大提升了动作执行的流畅性。

而VLA技术更像是给AI装了驾校教练的嘴和F1赛车手的手：既能用视觉语言模型看懂红绿灯，又能用思维链推理解释"为啥要变道"------"亲，右侧车道有外卖小哥逆行，咱们怂一点"。理想汽车的实测显示，VLA能预测几十秒后的路况，比VLM模型的7秒"金鱼记忆"强出几个量级，遇到施工路段还会自动切换成"科目五：地狱级绕桩模式

核心差异：一个靠"脑补"，一个靠"唠嗑"

数据维度：

VPP吃的是"视频自助餐"，从人类做饭到工厂流水线录像都能消化，生成的动作像抖音短视频一样丝滑；
VLA啃的是"多模态压缩饼干"，把3D点云、交规文本和人类驾驶行为压缩成32B参数的"驾驶常识"。
推理逻辑：
VPP玩的是"单帧剧透"------扩散模型中间层抽一帧就能预测整套动作，比追剧时看缩略图猜结局还快；
VLA搞的是"思维链话疗"------先用CoT推理出"前车可能要加塞"，再决定是"礼让"还是"反手一个举报"。
应用场景：
VPP在工厂里当"跨工种临时工"，今天用机械臂拧螺丝，明天换双足机器人搬货架；
VLA在高速上化身"电子路怒症患者"，边超车边给你播报《防御性驾驶十大准则》

VPP像体育生------靠肌肉记忆完成高难度动作；VLA像文科生------不仅要会开车，还得写篇《论安全变道的社会学意义》。至于谁更胜一筹？看看你家扫地机器人是默默干活（VPP流），还是突然问你"要不要顺路丢垃圾"（VLA流）就知道了