星动纪元的机器人大模型 VPP,泛化能力效果如何?与 VLA 技术的区别是什么?

点击上方关注 "终端研发部 "

复制代码
```go
设为"星标",和你一起掌握更多数据库知识

```

VPP 利用了大量互联网视频数据进行训练,直接学习人类动作,减轻了对于高质量机器人真机数据的依赖,且可在不同人形机器人本体之间自如切换,这有望大大加速人形机器人的商业化落地。

在今年的 ICML 2025 中,VPP 从超 12000 篇投稿里脱颖而出,入选占比不到 2.6% 的 Spotlight 论文。

VPP 模型通过将视频扩散模型的泛化能力引入到通用机器人操作策略中,解决了以往机器人推理速度慢的问题。VPP 能够实时预测未来动作,从而极大提升机器人的策略泛化能力。值得注意的是,这一模型已在国际机器学习大会(ICML2025)上获得 Spotlight 认可,展现出其研究的前沿性和重要性。

VPP 基于 AIGC 视频扩散模型而来。如图所示,VPP 分成两阶段的学习框架,最终实现基于文本指令的视频动作生成。第一阶段利用视频扩散模型学习预测性视觉表征;第二阶段通过 Video Former 和 DiT 扩散策略进行动作学习。

VPP 的一大亮点在于其预测能力。以往机器人策略(例如:VLA 模型)往往只能根据当前观测进行动作学习,机器人策略需要先理解指令和场景,再执行。VPP 能够提前预知未来的场景,让机器人 "看着答案" 行动,大大增强泛化能力。通过该模型,机器人的执行速度能够实现 "更快一步",在仅需150毫秒的推理时间内,预测频率达到6-10Hz,控制频率更是超过50Hz,极大提升了动作执行的流畅性。

而VLA技术更像是给AI装了驾校教练的嘴和F1赛车手的手:既能用视觉语言模型看懂红绿灯,又能用思维链推理解释"为啥要变道"------"亲,右侧车道有外卖小哥逆行,咱们怂一点"。理想汽车的实测显示,VLA能预测几十秒后的路况,比VLM模型的7秒"金鱼记忆"强出几个量级,遇到施工路段还会自动切换成"科目五:地狱级绕桩模式

核心差异:一个靠"脑补",一个靠"唠嗑"

  1. 数据维度:
  • VPP吃的是"视频自助餐",从人类做饭到工厂流水线录像都能消化,生成的动作像抖音短视频一样丝滑;

  • VLA啃的是"多模态压缩饼干",把3D点云、交规文本和人类驾驶行为压缩成32B参数的"驾驶常识"。

  • 推理逻辑:

  • VPP玩的是"单帧剧透"------扩散模型中间层抽一帧就能预测整套动作,比追剧时看缩略图猜结局还快;

  • VLA搞的是"思维链话疗"------先用CoT推理出"前车可能要加塞",再决定是"礼让"还是"反手一个举报"。

  • 应用场景:

  • VPP在工厂里当"跨工种临时工",今天用机械臂拧螺丝,明天换双足机器人搬货架;

  • VLA在高速上化身"电子路怒症患者",边超车边给你播报《防御性驾驶十大准则》

VPP像体育生------靠肌肉记忆完成高难度动作;VLA像文科生------不仅要会开车,还得写篇《论安全变道的社会学意义》。至于谁更胜一筹?看看你家扫地机器人是默默干活(VPP流),还是突然问你"要不要顺路丢垃圾"(VLA流)就知道了

相关推荐
果粒蹬i几秒前
Python + AI:打造你的智能害虫识别助手
开发语言·人工智能·python
Blossom.1181 分钟前
从单点工具到智能流水线:企业级多智能体AI开发工作流架构实战
人工智能·笔记·python·深度学习·神经网络·架构·whisper
2401_841495643 分钟前
【机器学习】标准化流模型(NF)
人工智能·python·机器学习·标准化流模型·概率生成模型·可逆变换·概率密度变换
愚公搬代码3 分钟前
【愚公系列】《AI短视频创作一本通》008-AI短视频脚本创作技巧(分析爆款短视频,快速掌握脚本创作技巧)
人工智能
凤希AI伴侣3 分钟前
凤希AI伴侣:导航栏数据全面升级与AI落地的深度思考-2026年2月2日
人工智能·凤希ai伴侣
Blossom.1184 分钟前
从“金鱼记忆“到“超级大脑“:2025年AI智能体记忆机制与MoE架构的融合革命
人工智能·python·算法·架构·自动化·whisper·哈希算法
资讯雷达4 分钟前
VPX架构军工级SSD选型指南:板级定制与国产化解决方案(2026)
人工智能
铁蛋AI编程实战4 分钟前
谷歌MedGemma 1.5医疗大模型开源部署教程:普通显卡可运行,医学影像分析零代码实现
人工智能·chrome·开源
铁蛋AI编程实战5 分钟前
AI Agent工程化落地深度解析:从架构拆解到多智能体协同实战(附源码/避坑)
人工智能·架构
AndrewHZ8 分钟前
【AI黑话日日新】什么是隐式CoT?
人工智能·深度学习·算法·llm·cot·复杂推理