具身智能是指基于物理身体进行感知、决策和行动的智能系统。具身智能的本质是建立在"感知智能"和"认知智能"基础上的"行为智能"。具身智能本身由来已久,也本非一定要具备人的身体形态。例如,工厂中生产组装汽车的工业机器人、公园中自动巡游的商品售卖车、夜空表演的无人机蜂群等等,都可以归纳到具身智能的范畴。但受限于"感知"与"认知"能力,上述系统,虽然具有身形,但智能偏少。在这个人工智能大发展的时代,具身智能的概念再次被推向浪潮之巅。"大数据"时代"感知智能"达到前所未有的高度,大家最切身的感受可能是无处不在的刷脸系统,人类进入了万物识别的智能时代。"大模型"为"认知智能"奠定了基础,以chatGPT为代表的对话系统在许多领域超过了普通人的认知水平,并且由对话聊天进一步拓展到政治、经济、军事、科技、民生等领域的智能赋能与辅助决策。有了这两项根基,无人车、无人船、人形机器人等等具身智能大步快速发展,人工智能的力量由无形的软件程序,慢慢渗透到有形的机器平台。
建立在"大数据"和"大模型"基础之上的具身智能是需要训练的,其感知能力需要在海量的业务领域数据之上进行学习,其认知决策能力需要经历无数次的探索与试错过程。以自动驾驶的无人车为例,没有各类道路、行人、交通标识等图片训练数据,无人车就没有办法分辨出周边处于什么环境;没有在城市公路、乡间小道、云雾雨天气等各类环境下不断尝试不同的驾驶操作并得到结果反馈,就不可能在驾驶时做出正确的应对决策。可见,拥有海量的业务领域数据、允许无数次试错的训练环境,是构建具身智能的必要条件之一。然而,要在现实世界中搭建这样的训练环境,经济成本和时间成本都是巨大的,甚至像天气等因素也是不受控制、无法满足的。因此,具身智能的训练通常采用虚拟仿真环境,通过仿真环境中的大量训练,再在现实世界环境中做微调和适应,以实现具身智能的低成本的敏捷构建。
具身智能仿真平台作为具身智能的孵化器,也就是在这个背景下应运而生。