星动纪元的机器人大模型 VPP,泛化能力效果如何?与 VLA 技术的区别是什么?

点击上方关注 "终端研发部 "

复制代码
```go
设为"星标",和你一起掌握更多数据库知识

```

VPP 利用了大量互联网视频数据进行训练,直接学习人类动作,减轻了对于高质量机器人真机数据的依赖,且可在不同人形机器人本体之间自如切换,这有望大大加速人形机器人的商业化落地。

在今年的 ICML 2025 中,VPP 从超 12000 篇投稿里脱颖而出,入选占比不到 2.6% 的 Spotlight 论文。

VPP 模型通过将视频扩散模型的泛化能力引入到通用机器人操作策略中,解决了以往机器人推理速度慢的问题。VPP 能够实时预测未来动作,从而极大提升机器人的策略泛化能力。值得注意的是,这一模型已在国际机器学习大会(ICML2025)上获得 Spotlight 认可,展现出其研究的前沿性和重要性。

VPP 基于 AIGC 视频扩散模型而来。如图所示,VPP 分成两阶段的学习框架,最终实现基于文本指令的视频动作生成。第一阶段利用视频扩散模型学习预测性视觉表征;第二阶段通过 Video Former 和 DiT 扩散策略进行动作学习。

VPP 的一大亮点在于其预测能力。以往机器人策略(例如:VLA 模型)往往只能根据当前观测进行动作学习,机器人策略需要先理解指令和场景,再执行。VPP 能够提前预知未来的场景,让机器人 "看着答案" 行动,大大增强泛化能力。通过该模型,机器人的执行速度能够实现 "更快一步",在仅需150毫秒的推理时间内,预测频率达到6-10Hz,控制频率更是超过50Hz,极大提升了动作执行的流畅性。

而VLA技术更像是给AI装了驾校教练的嘴和F1赛车手的手:既能用视觉语言模型看懂红绿灯,又能用思维链推理解释"为啥要变道"------"亲,右侧车道有外卖小哥逆行,咱们怂一点"。理想汽车的实测显示,VLA能预测几十秒后的路况,比VLM模型的7秒"金鱼记忆"强出几个量级,遇到施工路段还会自动切换成"科目五:地狱级绕桩模式

核心差异:一个靠"脑补",一个靠"唠嗑"

  1. 数据维度:
  • VPP吃的是"视频自助餐",从人类做饭到工厂流水线录像都能消化,生成的动作像抖音短视频一样丝滑;

  • VLA啃的是"多模态压缩饼干",把3D点云、交规文本和人类驾驶行为压缩成32B参数的"驾驶常识"。

  • 推理逻辑:

  • VPP玩的是"单帧剧透"------扩散模型中间层抽一帧就能预测整套动作,比追剧时看缩略图猜结局还快;

  • VLA搞的是"思维链话疗"------先用CoT推理出"前车可能要加塞",再决定是"礼让"还是"反手一个举报"。

  • 应用场景:

  • VPP在工厂里当"跨工种临时工",今天用机械臂拧螺丝,明天换双足机器人搬货架;

  • VLA在高速上化身"电子路怒症患者",边超车边给你播报《防御性驾驶十大准则》

VPP像体育生------靠肌肉记忆完成高难度动作;VLA像文科生------不仅要会开车,还得写篇《论安全变道的社会学意义》。至于谁更胜一筹?看看你家扫地机器人是默默干活(VPP流),还是突然问你"要不要顺路丢垃圾"(VLA流)就知道了

相关推荐
牛客企业服务35 分钟前
2025年AI面试推荐榜单,数字化招聘转型优选
人工智能·python·算法·面试·职场和发展·金融·求职招聘
视觉语言导航1 小时前
RAL-2025 | 清华大学数字孪生驱动的机器人视觉导航!VR-Robo:面向视觉机器人导航与运动的现实-模拟-现实框架
人工智能·深度学习·机器人·具身智能
**梯度已爆炸**1 小时前
自然语言处理入门
人工智能·自然语言处理
ctrlworks1 小时前
楼宇自控核心功能:实时监控设备运行,快速诊断故障,赋能设备寿命延长
人工智能·ba系统厂商·楼宇自控系统厂家·ibms系统厂家·建筑管理系统厂家·能耗监测系统厂家
BFT白芙堂2 小时前
睿尔曼系列机器人——以创新驱动未来,重塑智能协作新生态(上)
人工智能·机器学习·机器人·协作机器人·复合机器人·睿尔曼机器人
aneasystone本尊2 小时前
使用 MCP 让 Claude Code 集成外部工具
人工智能
静心问道2 小时前
SEW:无监督预训练在语音识别中的性能-效率权衡
人工智能·语音识别
羊小猪~~2 小时前
【NLP入门系列五】中文文本分类案例
人工智能·深度学习·考研·机器学习·自然语言处理·分类·数据挖掘
xwz小王子2 小时前
从LLM到WM:大语言模型如何进化成具身世界模型?
人工智能·语言模型·自然语言处理
我爱一条柴ya2 小时前
【AI大模型】深入理解 Transformer 架构:自然语言处理的革命引擎
人工智能·ai·ai作画·ai编程·ai写作