让机器人“舞得更好”的全身运控的方案还有哪些进化空间？

继续具身智能之心上次的圆桌，我们为大家整理了机器人全身运控的一些insigts。这次主要探索RL+VLA、realsim2real、3DGS和仿真的一些问题，近万字分享。
原文链接：让机器人"舞得更好"的全身运控的方案还有哪些进化空间？

刘斯坦：

我们想聊一聊关于RL的事情，现在很多VLA的训练已经有点类似于标准化了，先进行模仿学习训练基座。然后基于一些仿真环境进行一些强化学习，就是跑最后的是一公里或者十公里，最后的10%好像已经有一些这种标准化的一种训练的方式。我们如果看 deepseek R1。还有比如说最近提出的那个超级人工智能的一些图景的话，其实全部都是关于RL的训练范式有关的创新，就是RL它不是一个简单的就是一个强化学习上，然后仿真环境去用了就结束了。它可能是涉及到一个非常复杂的流程等等，我们想在第二个大问题的第一个小问题的讨论是关于RL训练范式的创新和未来发展的情况。首先，我们想就是问问张强老师，我看你小红书这个说 Pi0.6，最近有一个强化学习方面有个重要的引用，是基于您的之前的一篇文章，您能不能介绍一下这个事情？

张强：

这个事情确实是这样。因为当pi0.6发了之后，我一天早上可能收到了十几条微信，说你看到了吗？就是pi用了你的强化学习的算法，我们也非常高兴。这是我和我师弟谢振鹏博士，我们大概在24年年底去完成的一个算法叫 simple policy optimization，中文名叫简单的策略优化。PPU它其实是一个近端策略优化，近端策略优化其实在一定程度上它是损失了它的样本的一个数量的。它不管是用 clip 还是用 KL divergency，它是损失了很大的。所以在语言模型里面，大家其实不是很想用 PPU 语言模型。里面真正去用的是类似于 GRPU 这样的算法，但 GRPU它又很难去用到我之前用到的一些RL的任务上，这是因为它模型构建的一些算法导致的。所以我们当时是开发了一个这样的算法，也是我师弟的一个 idea然后我去把它和很多RL任务做了一个结合。大家很高兴pi在做最新的工作的时候，它就是在强化学习的部分用到了我们的算法作为一个算法的baseline。

我觉得一个很重要的事情是什么？当天找我的十几个人里面有七八个人是自动驾驶的朋友，他说其实具身的人关注这个事情的速度都没有自动驾驶的快，因为Pi0.6他提出来一个非常关键的点，我们有一个范式标准是先拿一些数据去做基座模型的 pretrain，然后有了基座模型的 pretrain 之后我拿RL走"最后一公里"。但我觉pi0.6他提出来一个很重要的思想就是基座模型pretrain的数据对于语言模型、对于VLM、对于具身模型它是不一样的。语言模型里，你可以认为基本上所有互联网的语料，它基本上都是可能95%它都是对的，你都是可以拿来去做一个基座模型的 pretrain 的。你在做特定领域的时候，可以挑一些专家数据去做 SFT，但是对于自动驾驶就不一样了。我们每天路上开的车，就我跟任少卿老师去聊这个问题。任少卿老师跟我说，每天路上可能说100万辆车在路上开，只有1%的数据是能拿来做 pretrain 或者说能做一个基座模型的训练，为什么？因为大家想一想，我每天开两个小时的车，这两个小时不是完全可以用的。因为很多时候可能不小心没有走到中间，可能有压线或有各种各样不是完美符合交规的。

那它如果做 pretrain 的时候，它其实是一个相对来说 harmful 的数据，其实对于具身智能来说也是很关键的，pi0.6观察到这个点。那智驾的人，他其实最 care 这个，就可能我这么多车在路上，每天收数据，结果收回来，你告诉我只有10%的数据能用，这个事我是接受不了的。所以RL 的 value function 其实可以帮助这一点。我可以告诉你，我给你各种行驾驶行为打分，或者说有一个评测的方式，能去把不好的数据利用起来。

我们在 SPU 算法开发完之后，我们也是想去做这样的事情的，那确实是比pi0.6慢了一点。对于具身来说，为什么更关键？其实我们自己能看到国内现在有很多具身智能的数据收集工厂和数据工厂。基本上数据就算你专业的人来收集，最后被丢掉的数据也有很多，为什么？因为我们觉得你那个轨迹训练出来的时候，你拿一个夹爪去夹一个杯子。然后夹的过程中，你手抖了一下，或者说你手来回晃了一下，我们认为那机器如果要学你这样晃的这样过程，它可能对它的这个任务其实是没有用的。所以之前很多数据我们认为它不好用就丢掉了，但是本来RL对数据就很需求，因为他一定要在数据中去探索。

那今天的数据又丢掉一些，那怎么办？就pi0.6我觉得提供一个很好的思路，我通过这样的方式能告诉你说不好的数据它也是有用，其实人的学习过程也是这样的，就是我看错题其实我是能学到正确的知识的。我看错题不一定我就要学错题。我看错题，我看你给错题打的分，我看给你给错题每一个步骤的标记，其实我是能学到一些 successful 的一些 knowledge 的。这个东西对于具身来说，尤其对于具身这种特别缺乏数据的场景来说，其实很关键的。我觉得这个就是我上一个议题里面讲，房间里面有一个看不见的大象，看不见的大象它有时候可能就出来给你来两下。我告诉你说你这个过程里面有一些东西是不对的，其实可以用很多一些RL训练的一些方法去改进的，我觉得这是pi0.6带给我最大的一个冲击。也是我们现在内部在进行一些做 surprise learning的过程中需要考虑的点，而且我们确实发现效果会非常的好。

刘斯坦：

挺好，那刚才张强老师说了，关于SPO在pi0.6中被引用作为一个 baseline。他对pi0.6的一些认知，我私下和张强老师聊过，张强老师说他跟pi的人也聊过一些东西，只是不好说。我相信刚才张强老师分享的很多insights 其实也有很多是来自于张强老师跟 pi 的人的一些交流，至于哪一些是来自于哪个，咱们就不说了，但这个都是真知灼见。

接下来我想问一问这个于超老师，于老师，就是您最近发表的这个 Rlinf 是一个整个VLA强化学习类似于一个工具箱或者是一个 framework，一个框架。之前的发展其实是比较缓慢的，我的理解是比较缓慢的，因为大家还是说放在强化学习的环境里面，然后仿真。pi0.6把它有一些新的东西出来，而您弄出这个 framework，我觉得您的这个整个 scope 和野心肯定是很大的。能不能讲一讲，就是这个 framework 最后的目标或者是你的想象中，强化学习的范式在具身智能的应用之中，未来的发展会是一个怎样的趋势？

于超：

就是跟刚才提到的观点还是比较类似，就是可以从两方面去讲。第一个就是我们为什么要做框架？第二个就是我们怎么去看待强化学习应用在 VLA 里面的，它的一个作用。

先讲第一个，我们为什么要做框架? 在25年之前我一直在做强化，就从23到24这一年。我其实一直在给我老板做RL for无人机进行决策，所以我并没有看具身智能的所有东西，我们当时VLA一个火热的时候嘛，还什么还完全不知道。只是每天看新闻，好多 VLA一出来了，但是干啥都不知道，我们当时是在做无人机，因为我们有个很大的项目要搞那个。到25年转过年回来之后，我们就说那个事，反正干的差不多了，我们看看我们干点啥，所以我们真正意义上转具身智能是从25年过年之后，3月份我们才开始看这个东西。当时我因为要转个方向，所以还找了很多的，当时已经在具身智能领域做了很多好好工作的人去聊说具身智能到底在干个啥玩意，我们怎么去入手？

后来经过大概一个月的迷茫期，我们发现RL这个东西，恰好当时 R1 出来了，然后我们在那个时刻就在看说，就是当前vla的训练范式几乎都是模仿学习，我们是比较 believe in强化的。当时就想说，来看看RL for VLA能够怎么样，所以我跟小朋友们一块做一个工作名字叫 what can RL bring to VLA generalization。就是说RL到底能够给VLA的泛化性带来哪些程度的提升？你想，你要投入到一个领域。如果你不先去做一个 preliminary study，你直接就把所有能力全部投进去，这个风险是很高的，所以我们得先看一看RL for VLA合不合理到底对不对？所以我们去先去看了一眼，我们发现RL可以给 VLA在语义层和动作执行层带来的泛化性会更强一些，但是在视觉层其实带来不了很多层面的泛化。但是这个研究的结果给我们增加了信心，就是RL for VLA一定是有用的，有了这个结论，那我们就可以放开手脚去干了。既然这个事情有用。第一个就是一个假设已经成立了，那我们就来去好好的认真的去做这件事情，但我们准备大动，就是我们在做的过程中发现。很遗憾，这个领域的工具并不能支撑我们去做这样的研究，因为如果你在做 R1。你会发现你有很好的工具叫VRL，就是字节的一个 infra，或者再包括比如说 open RFHF也有这样很好的工具，你可以去用。

但是当我们去做到VLA+RL的时候，发现没有。如果要去模改这样的框架也不太满足我们更大的一个 vision，因为我们期望支持的是 on policy、off policy、online、offline，包括我们要支持 simulation RL、world RL，包括我们还要支持各种异构的硬件，支持国产异构卡等等的所有的这些需求。我们发现没有任何一个RL framework 满足这些需求，基于这些过去的框架都是给推理大模型去准备的。我们在这个时候就说，那既然我们组本来就是做RL的，然后同时还有一个做系统的组就是做这种分布式系统。同时有去做具身智能硬件的同学，于是集合大概一个30人的团队，包括高校、公司的这样一个整体的力量，去把一个RLinf 这样的框架给做了。

这个设计是经过大概有一个月的讨论期。就是我们到底要做成一个什么样的框架，已经有当时的 open RFHF已经有几万 star 了吧，然后 V2也有几万 star 我们再冲出来去做这样的infra 看起来非常可笑，因为这个框架的投入可能要到千万级就是非常可笑。

这都没有算人力成本，就单说卡可能就要到千万，就这个投入非常大的，然后我们做了一个。不会有人知道的框架是很离谱，对于我们来说是一个不可接受的事情，但我们后来去想这个事情尽管难还是要做，因为它是确实是一个刚需，我们团队自用的话都要用这样一个东西。所以在这种情况下，我们做了这样框架，然后这个框架特色，其实是面向VLA+RL，这个是它的主要特色。

其实后来我们在看pi0.6*这个工作的时候，也提到说当下现存的RL for vla 都是给 small scale 的 system 或者是 virtual system for large language model 来去设计的。more research 需要给 VLA加RL去设计。然后这个框架其实恰恰是在去满足了这样一个就是未来的需要吧。

我们自己的团队最近也会受到了很多社区的关注吧，就是希望能够把这个框架继续向针尖上推，最近也是狠狠的加班，在往针尖上面去推了。

刘斯坦：

我没想到就是于老师你这个Rlinf的scope这么大。这个真的是要跨本体，还有各种各样的 online、on-policy的各种各样的 reward design，全部都在里面，我觉得这个是非常让人震撼的一个框架。我也希望以后其他的组就不要重复劳动了，直接用吧，已经投入了上千万了，或者数千万。我觉得这个是一个非常大的领域或者是咱们具身智能界一个非常大的福音，就是清华大学能够投入这么大的资源，然后联合产业方，做这个框架非常好。

Gloria：

我插播一句，就是 R Linf 它在我觉得从软件工程的角度来看，它也是一个非常好的框架。

于超：

这就要回到我最近老跟我团队"吵架"，就是团队这几位大哥对这个代码的质量要求有点太高了，然后对于我们这样做学术的要拼论文的人就非常的不好，三天两头跟我讲要重构。我就一提到重构两次，我现在都PTSD了，我说不要再重构了，已经很好了，不要再搞了，但是他们就天天重构。最近，我们停工，就大家会发现最近我们基本之前，会以每两周或者一周的速度给大家 update 我们进展。但我们最近这两周停工了，主要原因是大哥们在重构。所以我们的 main 分支已经 freeze 掉了，都在0.1 release 分支，但是他们还在做重构，今天早晨路上还在说赶紧测试，不要再重构了。

刘斯坦：

我觉得作为一个学术领头的团队，能够对代码质量这么高的要求是非常不容易的，我希望于老师还是给这个团队的这个小伙伴一点耐心，我觉得我是站在质量这一边的。

于超：

我们要重构好，这样我们之后的工程量才会下去，因为我们就是最开始设计的时候没有想过要支持今天我们预想的这么多东西，当时的仿真器我们可能只想支持两个，后来发现仿真器可能得有主流可能都有小十个吧，但我目前已经支持了七七八八了。所以在这种情况下，大家就对于环境接口部分要求更加严格了，就不像之前那样一个明科的一个接法，所以就全部就是推翻了重来了。

刘斯坦：

太强了，接下来我想问一下隋老师就是咱们关于强化学习在真机落地的时候，您有没有在训练或者是工作中使用到强化学习，如果方便透露的话，大概就是一些什么样的流程或者范式。另外，在仿真环境或者sim2real这些问题上，有一些什么样的实践经验？

隋伟：

第一个问题就是说我们有没有在用强化学习，对我们是在用，但是我们暂时还没有在 VLA 里面用强化学习。目前的强化学习，其实主要还是在 localmotion 这个层面上就是双足的 localmotion 做一些舞蹈，然后或者说做一些动作，那这个其实是强化学习，确实是比传统的规则的方法。优势非常的明显，包括 sim to real 的这些迁移，它的效果其实是鲁棒性，还有像最终的舞蹈的效果，其实都是比规则方法要好的。

然后在VLA层面上我们暂时还没有布局强化学习，当然我们认为强化学习肯定是有用的，因为至少在像大语言模型里面，它已经展现出了它的能力。那现在从这个范式来讲的话，从大语言模型迁到自动驾驶，那自动驾驶现在也有好多在尝试强化学习的，那具身可能走的更靠前。我们现在还没有布局的原因主要是两个方面的考虑。第一个就是我们现在还没有看到一个特别好的，能实现sim to real迁移的仿真器，至少说现在有好多都在探索了。但是具体效果来说的话，现在至少业界还没有看到真正的解决这个问题，这是第一点，因为强化学习其实比较依赖仿真的。

第二个的话就是，我们认为，就刚才于老师在说的时候，我在思考这个问题，就是模仿学习和强化学习。我们认为的话这两者各有优势，模仿学习的话，它就是训练非常高效直接，就相当于是从零基础，比如说到了80分，到了一个有一定水平的，这样的技能的这样的人。

最后强化学习的话，它的优势就是它有探索性，它可以跳出局部最优。也能够去跳出这些模仿学习的这些 loss 能够从整个的长程的任务的最终结果上来去做训练，对这是它的优势，但问题就是在于它这种训练方式，效率上会比模仿学习会低一些。所以我们认为就是可能比较合理的方式是先有一个模仿学习的结果。先有一个可能80分的东西，然后再去做强化学习，相当是一个比较好的教练，给你点拨一下，那你可能有到一个比较好的效果了。所以我们现在的精力还在做模仿学习的 model 上才能去一个比较好的效果。那我们其实也没有做VLA 现在我们还是集中在 VA 上，因为我们现在觉得 VA，它是里面的一个最小单元。如果 VA 这个问题做不好的话，那 VLA 它也是会有问题的。这是目前我们在强化学习的使用情况上。

另外就是说sim to Real 的迁移的情况，这个东西也要看任务。比如说像 localmotion 的话，如果不加视觉感知，那它的迁移相对容易，因为它迁移的是电机信号，那个模型其实输入电机信号输入输出预测下一个动作对是相对来说容易的。如果一旦加上视觉感知的话，迁移其实就不太容易了。因为涉及到这种语义层面的东西，我们最近也在做一些探索，其实从两个层面上：第一个就是现在的这些大模型的发展，对这些物体的生成和重建其实已经产生了比较大的影响。原先我们要去做一个 real to sim 就从重建到仿真这一步的话，其实很难做的特别好的，那现在有一些文生3D 的或者是图生3D 这样一些技术，能让生成或者是重建的效果做得非常的逼真。当然，虽然说逼真，它并不是 sim to real 的一个等价条件，但是我觉得它是一个充分不必要条件。首先你要看很真，然后你才能去做迁移，这是第一步，那具体迁移效果怎么样？当然肯定还是跟任务相关的。这是第一个，就是我们在用一些大模型的方法来做生成，我们最近也有一个工作叫Tabletop 阵，就是聚焦在桌面的一些任务，这个工作我们近期也会释放出来。

另外一个的话我们也在探索一些传感器。其实我们在这一年做一些机器人的一些感知算法的时候，发现双目的传感器，它对这个 sim to real 的这种能力非常强，就是即便我们看到的是一些很假的图片，但是它也能够在真实场景里面得到非常好的性能，几乎不需要仿听。我们也在想用双目传感器去作为仿真环境和真实环境的一个adapter。然后去让这个模型具备这种迁移的能力，那再往下走的话，其实就是3D 技术模型了

除了双目传感器之外，从模型架构上来讲的话，我们最近投入比较多的是在做3D的预训练模型、技术模型，从 VGGT 再到后面的这些DA3我们都看到了比较好的几何的表达能力。原先的话，我记得在21年的时候，我们在做单目的这种深度估计，其实那个时候做了很长时间，最后的结论就是单目不可能落地,泛化性太差了，不符合人类的原理。经过这3年的技术发展，现在很多的这种视觉技术模型已经让这个单目的这种深度估计感知具备了这种落地的可行性了，包括像 VAGT 这些后面的这些。像 slam、self-motion 的范式都可能会改写，所以我们现在来尝试利用这种视觉基础模型的方式来做迁移，这个是我们认为就是做 sim to real 的可能比较好的一些途径。

刘斯坦：

这个非常inspiring，因为其实本质上说您提出的这个想法就是利用3D 的表达，作为一个 sim to real的一个中介。因为毕竟谈到sim to real的 gap，3D 的信息的 sim to real gap 比起视觉的这个像素或者视觉的 gap 是要小很多的，所以可能这是一个非常好的路径，很有意思。

然后接下来我想问一下张强老师就是据我所知，就是咱们北京人形在使用强化学习的时候会用到一些 real to sim 3D GS的仿真技术吗？我对这个也特别感兴趣，因为最近创业也在关注这部分，就是之前也和muyao老师聊过，关于仿真3D GS什么的？您能不能说就是在北京人形，就是 real to sim to real 做了哪些相关的工作，如果方便说的话，或者您自己的见解也可以，然后大概效果是怎样的？您觉得是可行的吗？之前我记得我们做过一期就是跟赵昊老师，还有muyao老师那一期圆桌，大家讨论是柔性物体的仿真特别困难，视觉也好，然后您是怎么就是 handle 这些问题的？

张强：

感谢刘老师的这个问题，这个是我非常感兴趣的。我最早在做深度学习开始做深度学习的时候，其实是做视觉的。我是非常喜欢3DGS 这个表征的，我觉得它给予3D reconstruction 一个非常好的方式。3D GS在大概是24年的时候，我是第一次就是全球范围内，是第一次把3D GS跟RL结合到一块。当时去做这个 manipulation 这个任务，我觉得3D GS它是一个很好的工具，它是可以去让我们在仿真中能看到比较真实的画面的一个工具。同时，3D GS它这个表征里面，因为它其实就Gaussian Splatting，它有一个球协函数其实是可以扩充的。所以说理论上来说，它的上限其实是跟 Nerve 是不相上下的，因为 nerve 大家知道隐空间的表征其实是上限是无穷高的，就只要有隐空间。只要这个隐空间足够好，是可以表征所有事情的，但是隐空间的问题是隐空间的监督信号太差了，就nerve大家训练到后面发现说我特别精细的东西，不知道怎么去调控它。3D GS它给了这样一个方式，我通过一些球协函数，我把它半显示的给你表示出来。

那现在 simulation 里有一个什么问题？不真实，对吧。这个是一个最真实最迫切的问题，就什么叫真实？大家现在玩儿游戏，我不知道有没有任何一个引擎，仿真引擎，或者说打游戏的引擎能让你觉得这个跟现实是一模一样的，没有。我们看到什么虚幻这些引擎做的很好，人就是一眼就能看出来，你是不真实的。那人都能很轻易的分辨出来这个 gap 的话，那对于他来说，他就是一个问题，那我觉得一个很好的点是说。3D GS它做出来的东西，人眼是看不出来，它到底是生成出来的东西，还是说是它本身就存在的。这个东西说我人眼就分辨不出来gap 了。那对于它对于网络训练，就是有一个 helpful 的作用。

我觉得在未来，尤其现在我们刚才隋总也一直在讲说 localmotion 进展到一个阶段 local motion它不是说 solve problem 就不是说这个问题被解决了，而是说它在那个阶段的问题被解决了，它现在想像人一样自由自在去 local motion 其实还是做不到的。那我们人跟机器人现在差在哪里？或者说机器人跟我们差在哪里?它差感知，它差在它没有对地形更好的一个建模，以及相关的东西上。那3D GS拿进来的时候，它就能发挥它的优势，包括说我们今天的主话题VLA。VLA 它其实面临的在仿真里面临的一个问题，还是说我看仿真里的VLA，我感觉就像在玩一个2010年左右的电脑游戏。我人一眼就看出来是假的，那你让模型去学假的一个东西，我想让它 sim to real 这个难度就很大，那我必须要有一些 real to sim的手段。3D GS是一个很好的方式和工具。那我也希望说 CV 领域能给具身智能领域带来一些更新的东西，能比3D GS好，比如说4D GS，比如说一些更新的一些3D reconstruction 的范式。这样就能帮助我们具身领域去再往前走一步。就是整个具身领域，或者说具身领域，在我看来，它是一个非常综合的领域。它其实需要各个模块都贡献出来自己最好的方法，它可能最后在 system 级别上，它才能有一个还差不多的表现。如果这些模块里面有任何一个模块做的不是特别的好，你最后在系统上看到的就是一个很拉胯的一个表现。

刘斯坦：

真不错，知道这个方向还有像北京人形的单位还在坚持，还在发展，我觉得是挺不错的。然后汪老师，我想问问您一些相关的问题。在原力或者是您的工作中就是RL和VLA相结合。首先是您有没有相关的尝试？使用的一些通用范式上有一些创新吗？另外就是还是 real to sim to real 的问题就是您的仿真环境是有没有尝试一些文到3D 或者3D GS重建式或者生成式的这种 real to sim？整个仿真的 real to sim 的迁移，这个domain gap，您看是不是已经足够小到能够落地了？

Tiancai Wang：

刘老师，我感觉你刚才都问了好几个问题。然后我就沿着我们探索的一个时间线来讲吧，就可能不用针对性的每个问题去直接具体回应，其实我们当时在去年的时候其实是探索过一些就是围绕 manipulation 的就是 real to sim to real 的一个工作就这个叫 robot scene。当时可能核心还是刚才张强老师讲的，就是说通过3D GS，然后去完成对于这个 manipulation 相关的任务的一个重建，然后能够形成比如说任意视角的任意视角，还有就是任意场景的一个 rendering，之前是有过一个探索。然后后来我们会发现整个的领域，或者说从 manipulation 和 navigation 这两个任务来说，其实它体现的一个点不太一样。

从我们的一个观察来说，Manipulation 它其实是在和物理世界进行主动交互的，但是 navigation 并不是。就是 navigation它其实会有点像自动驾驶。比如说它不会改变物理环境，但是 manipulation 会因为它会比如说去操纵对应的物体，然后完成对应的任务等等。但是 navigation 通常来说不会，因为它不会比如说，你做一个具体的导航任务，然后你会去形成对于一个物理环境的破坏，就单从这两part的拆解来说是这样的。后来我们在今年的话就是围绕 real to sim to real 这一块，我会更多的聚焦在导航这一部分。

导航这部分，我们会认为，它因为不会对于物理环境产生直接的影响，所以我们相当于要把这个问题解耦开，然后可能去围绕比如说不管是室内还是室外的一些大场景，就室外的一些大场景，还有室内的一些场景，以及对应的物体的这个扫描和重建。然后能够去对整个环境进行一个渲染，以及就是包括打包这样的环境去用对应的 VLA 去做这个推理测试推理部署，还是说去做它和在真实物理世界的一致性的验证。也就是我同样在物理世界训的VLA的模型，那它在仿真环境，以及在真机环境的一致性相关的分析。就从这个视角来说，如果从刚才最早隋伟老师讲的，从比如说围绕 localmotion 这一块的环节来说，从我们之前的一个探索和经验来说，我还是依然认为 sim to real 的一个 gap 在 manipulation 任务也好，在 localmotion 任务层面来说是gap还是很大的。不管是包括之前的一些sim to real还有围绕 real to sim 的这个相关的仿真器的探索，我目前的一个体感还是它目前的gap还是很大的，就是如果我们期望把它做得很好。

就像刚才张强老师讲，就很多的场景可能就是对于人来说就是一眼假，就我能看到的，我就能够直接的get到它是假的。很多时候真实的物理世界和仿真的这个 gap 是很大的，我们很难得到一个很标准化的一致性的结论。就他会面临的一个问题，如果我真的要把这件事情做好。所要投入的代价也好，或者说我们真正想要去Scale的这个目标，就它是否足以向我们围绕数据，或者说围绕RL的一个性能表现去达到一个Scale 的一个目标。可能更在意的是这件事情本身。它能否被快速的Scale，就不管是数据的规模也好，或者说从场景的多样性，从包括对于各种物理参数的建模是否合理。就比如说我们是否要把各类的，不管是角质物体，铰接物体还是各种柔性物体，它的对应的参数真正去形成一个有效的建模，我觉得这是一个 open question 吧，就可能我不太去会，比如说评判这个事情本身是否在未来能否做到。

还有一个点是关于刚才的一个问题，就是VLA+RL的这一部分。我们这一块正在探索的一个阶段，对因为我们一方面在做VLA的相关的一个基模。还是要把基模做好，然后同步的我们去探索就是增加 RL的这一部分，就可能会更在意的还是围绕 multi task 围绕更泛化的RL吧，我觉得这个也是一个比较好的一个 topic。包括pi*0.6也好，还是大家的这个目前的很多探索也好，可能都还是在围绕单一的场景和任务去提高它的任务成功率，或者说它的一个操纵的一个成功率的上限。但这一点是否足够，我们是否真的把VLA的所掌握的prior 充分的给激发出来，可能这个会是我们后面会探索的一个方向。

让机器人“舞得更好”的全身运控的方案还有哪些进化空间？

具身求职内推来啦

国内最大的具身智能全栈学习社区来啦！

推荐阅读

1v1 科研论文辅导来啦！