Harmon:从语言描述中生成人形机器人的全身动作

编辑:陈萍萍的公主@一点人工一点智能

Harmon | 从语言描述中生成人形机器人的全身动作这篇论文介绍了一种名为"HARMON"的方法,用于从自然语言描述中生成人形机器人的全身运动。https://mp.weixin.qq.com/s/AYwufIE_cABB1e3jTTHeQQ

01 简介

在当今科技飞速发展的背景下,人形机器人逐渐成为人类生活中不可或缺的一部分。它们不仅在外形上与人类相似,更具备了理解自然语言指令并执行复杂任务的能力。这种能力使得人形机器人能够更好地融入人类环境,并与人类进行高效、安全的合作。然而,要实现这一目标并非易事,其中一个关键挑战就是如何让机器人根据自然语言描述生成流畅且符合预期的全身动作。

本文《HARMON: 从语言描述中生成人形机器人的全身动作》正是为了解决这一问题而展开的研究。文章由来自德克萨斯大学奥斯汀分校和NVIDIA研究团队的多位学者合作完成,旨在开发一种基于文本描述的人形机器人全身动作生成方法。

具体来说,HARMON通过结合大规模人体运动数据集中的先验知识和视觉-语言模型(VLMs)的常识推理能力,实现了对人形机器人全身动作的精细化控制。这种方法不仅能够生成自然、表达丰富且与文本一致的动作,还能够在模拟和实际环境中验证其有效性。论文的贡献在于提出了一种创新的方法,将语言描述转化为具体的机器人动作,从而显著提升了人形机器人在日常生活中的实用性和灵活性。

此外,该研究还在多个测试案例中展示了其优越性,获得了高达86.7%的用户满意度。这表明,HARMON不仅在技术层面具有突破性意义,也为未来人形机器人在家庭和工作场所中的广泛应用奠定了坚实基础。

02 方法概述

HARMON的核心在于从语言描述中生成人形机器人的全身动作,整个过程可以分为三个主要步骤:基于文本条件的人体动作生成与重定向、VLM辅助的机器人动作编辑以及最终在真实机器人上的动作执行。

首先,研究人员使用一个基于物理引导的扩散模型------PhysDiff,根据给定的语言描述生成相应的人体动作。这个模型输出一系列SMPL参数,代表了人体各个关节的角度和根部平移信息。

接下来,通过逆向运动学(IK)将这些人体动作映射到模拟的人形机器人上,得到初始的机器人动作序列。然而,由于人类模型和人形机器人之间的结构差异,特别是头部和手指动作的缺失,导致直接重定向的动作可能无法完全满足语言描述的要求。

为了克服这些问题,HARMON引入了VLM来进行动作的精细调整。具体而言,研究人员将生成的机器人动作渲染成视频,并使用GPT-4等VLM工具生成头部和手指动作,同时对身体其他部位的动作进行迭代调整,确保动作与语言描述的高度一致性。

例如,当描述要求"用右手抓头"时,VLM会识别出当前动作中存在的问题,如手未放置在正确位置,并给出改进建议,使机器人手臂移动至指定位置。通过这种方式,不仅可以填补头部和手指动作的空白,还能修正因逆向动力学过程产生的偏差,从而生成更加自然和精准的全身动作。

最终,为了实现在真实机器人上的动作执行,HARMON将上下半身动作分开控制。下肢动作简化为步态命令,并通过基于零力矩点(ZMP)的控制器实现行走功能;而上肢动作则直接使用生成的关节位置序列进行控制。这种分离式控制策略有效解决了机器人动态平衡的问题,使得生成的动作能够在实际操作中顺利执行。

总的来说,HARMON通过结合大规模人体运动数据、VLM的常识推理能力和先进的逆向运动学技术,成功实现了从语言描述到机器人全身动作的无缝转换,不仅提升了动作的自然性和准确性,也为后续的实际应用提供了坚实的技术支持。

2.1 基于文本条件的人体动作生成与重定向

在HARMON的方法中,基于文本条件的人体动作生成与重定向是至关重要的第一步。研究人员选择使用PhysDiff模型,这是一种基于物理学约束的扩散模型,专门用于从语言描述中生成人体动作。

具体而言,给定一段文本描述X,PhysDiff会生成一系列SMPL参数,其中表示关节旋转角度,表示根部平移量。每个时间步i对应的关节位置可以通过SMPL模型计算得出,包含了24个人体关节的位置信息。为了确保这些人体动作能够准确映射到人形机器人上,研究人员首先需要最小化人体形状与机器人之间的差异。通过将SMPL模型和人形机器人模型置于相同的T姿态,并优化参数,研究人员能够有效地减少两者之间的关节位置差异。

在生成人体动作后,接下来的关键步骤是将其重定向到人形机器人上。为此,研究人员采用了逆向运动学(IK)求解器pink,通过优化机器人的关节配置q,使其关键关节(如手腕、肘部、肩膀、膝盖和脚踝)与对应的人体关节位置对齐。每次迭代过程中,求解器会根据当前关节配置和目标关节位置计算所需的关节速度,从而驱动关键关节达到目标位置。通过依次设置SMPL模型的空间位置,并更新每一步的关节配置,研究人员最终获得了一个完整的机器人关节配置序列。该序列不仅精确反映了生成的人体动作,还考虑了机器人自身的物理特性和约束条件,从而确保了动作的真实性和可执行性。

然而,直接重定向的人体动作并不总是完美契合人形机器人的需求,特别是在头部和手指动作方面存在明显的缺失。为了弥补这些不足,HARMON引入了视觉-语言模型(VLMs)进行动作编辑。研究人员首先将重定向后的动作渲染成视频,并利用GPT-4等VLM工具提取特定的手指和头部动作描述。然后,基于这些描述生成相应的手指和头部动作,补充到整体动作序列中。例如,当描述要求"左手食指伸直,其余手指弯曲"时,GPT-4会根据渲染的视频帧生成相应的手指关节配置。类似地,对于头部动作,如"看向左下方,共120帧",GPT-4会生成关键帧的颈部关节配置,并通过插值生成平滑的头部动作。通过这种迭代调整的方式,HARMON不仅能够生成更加自然和丰富的全身动作,还能确保动作与原始语言描述的高度一致性。

2.2 VLM辅助的机器人动作编辑

在HARMON的方法中,VLM辅助的机器人动作编辑起到了至关重要的作用。尽管通过逆向运动学将人体动作重定向到人形机器人上是一个有效的初步步骤,但由于人类模型与人形机器人之间的结构差异,特别是头部和手指动作的缺失,重定向后的动作往往不能完全符合语言描述的要求。因此,HARMON引入了视觉-语言模型(VLMs)进行进一步的细化和调整。具体来说,研究人员利用GPT-4等VLM工具生成头部和手指动作,并对整体动作进行迭代调整,以确保动作与语言描述的高度一致性。

首先,针对手指动作,研究人员通过观察重定向后的整体动作视频,并从中抽取四个等间隔的帧作为输入,提供给GPT-4。虽然更多的帧可能会捕捉更多细节,但研究表明,过多的输入帧会导致VLM的推理能力下降。因此,四帧足以让VLM生成准确的手指动作。GPT-4会根据手指动作描述生成每个时间间隔的手指关节配置,其中=12代表总的手指关节数。不同时间间隔的结果被拼接成一个完整的手指关节配置序列。相比之下,头部动作相对独立且维度较低,因此可以直接使用GPT-4生成头部运动。通过提供头部动作描述、总帧数和帧率(FPS),GPT-4会生成关键帧的颈部关节配置,并通过插值生成平滑的头部动作序列。关键帧的选择由GPT-4自主决定,确保生成高频率的头部动作。

接下来,为了进一步提高动作的一致性,HARMON引入了迭代调整机制。研究人员选择从生成的动作视频中抽取四个等间隔的帧,并将其与原始语言描述一起提供给判断代理。GPT-4首先生成描述视频中人形机器人动作的字幕,然后评估这些动作是否符合语言描述,并提供改进建议。随后,相同四帧截图和建议会被输入到调整代理中,调整代理预测必要的调整以使动作与建议相符。为了简化调整过程,研究人员设计了一组控制原语,通过逆向运动学实现左右手腕在特定方向上的移动,如向上/向下或朝向头部/胸部。这些控制原语不仅直观易用,还特别适用于上半身动作的调整,因为在实际实验中,下半身动作是由单独的控制器管理的。

在整个调整过程中,如果任何调整被实施,则使用最后一轮编辑后的关节配置序列作为最终的身体关节配置序列。如果没有必要调整,则直接使用重定向后的动作作为最终序列。最后,通过合并形成完整的身体关节配置序列。这种迭代调整机制不仅能够纠正初始重定向过程中可能出现的偏差,还能确保最终生成的动作与原始语言描述高度一致,从而实现更加自然和精确的全身动作表现。

2.3 动作执行在真实机器人上的应用

在HARMON方法的最后一个环节,即动作执行在真实机器人上的应用中,研究人员面临着一项重要挑战:直接执行生成的全身关节配置序列在真实人形机器人上是不可行的,因为单纯的运动学控制无法考虑到机器人的动态平衡特性。为了应对这一挑战,研究人员采用了分离式控制策略,将下半身动作和上半身动作分别处理。具体而言,他们简化了下半身的动作,将其转化为步态命令,并通过基于零力矩点(ZMP)的控制器实现行走功能。这些步态命令是从人形机器人骨盆轨迹在地面投影中提取出来的,确保了机器人在行走过程中的稳定性和平衡性。

与此同时,上半身的动作则直接使用生成的关节位置序列进行控制。通过关节位置控制,研究人员能够精确地执行上半身的各种复杂动作,如手臂摆动、手指动作和头部转动等。这种分离式的控制策略不仅有效解决了机器人动态平衡的问题,还使得生成的动作能够在实际操作中顺利执行。例如,当语言描述要求"用左手食指指向左上方45度角,并将左手放在胸前"时,HARMON能够精确地执行这些复杂的上半身动作,确保动作的自然性和准确性。

为了验证这种方法的有效性,研究人员进行了大量的实验。他们在真实的Fourier GR1人形机器人上进行了模拟和实际操作测试,结果显示生成的动作不仅流畅自然,而且与语言描述高度一致。此外,研究人员还进行了一项人类研究,邀请参与者对生成的动作进行评价。实验结果表明,HARMON生成的动作在各方面均表现出色,尤其是在手指和头部动作、手臂动作及整体身体协调性方面,得到了参与者的高度认可。具体数据显示,HARMON在总体文本-动作一致性得分上达到了81.2%,远高于其他基线方法。这不仅证明了HARMON在技术层面上的成功,也为未来人形机器人在家庭和工作场所中的广泛应用提供了强有力的支持。

总的来说,HARMON通过结合大规模人体运动数据、VLM的常识推理能力和先进的逆向运动学技术,成功实现了从语言描述到机器人全身动作的无缝转换。这种分离式的控制策略不仅解决了机器人动态平衡的问题,还确保了动作的自然性和准确性。HARMON的研究成果不仅为学术界提供了宝贵的经验,也为工业界带来了新的可能性,预示着未来人形机器人将在更多场景中发挥重要作用。

03 实验

论文实验本文主要介绍了使用人类动作模型(HARMON)生成整个人体运动的方法,并与三个基线进行了比较,以评估其效果。这些基线包括基于语言模型的运动生成、人体运动重定向和不考虑头部和手指的人体运动调整。

作者使用了一个测试集来评估不同方法的表现,并将结果呈现给参与者进行评估。评估指标包括指头和头部运动、手臂运动以及整体身体协调等方面。最终,HARMON在所有方面都表现出了优异的成绩,证明了其有效性和优越性。此外,文章还展示了在真实机器人上的部署结果,进一步验证了该方法的可行性。

04 论文总结

这篇论文介绍了一种名为"HARMON"的方法,用于从自然语言描述中生成人形机器人的全身运动。该方法利用了人类运动数据集中的先验知识来初始化机器人动作,并利用视觉语言模型(Vision Language Models,VLM)的能力编辑和优化这些动作。通过模拟和真实世界实验验证,该方法能够产生自然、富有表现力且符合文本描述的人形机器人动作。

该研究的主要贡献包括:

  1. 利用人运动数据集中的先验知识来初始化机器人动作,从而使得机器人动作更加接近人类动作。

  2. 利用视觉语言模型(Vision Language Models,VLM)的能力编辑和优化机器人动作,从而使机器人动作更加符合自然语言描述。

  3. 通过模拟和真实世界实验验证,证明了该方法的有效性和可行性。

该研究的主要局限性在于:

  1. 该方法需要大量的训练数据来学习人形机器人的运动模式,因此在实际应用中可能会受到数据量不足的影响。

  2. 该方法只能生成符合自然语言描述的动作,而无法生成其他类型的动作,如舞蹈等。

  3. 该方法依赖于视觉语言模型(Vision Language Models,VLM),因此其性能受限于VLM的质量和能力。

总之,该研究提出了一种有效的方法来生成符合自然语言描述的人形机器人动作,为人机交互和机器人控制等领域提供了新的思路和方法。

相关推荐
编织幻境的妖4 小时前
Python客服机器人
开发语言·python·机器人
蕴微轩5 小时前
DeepSeek R1 + 飞书机器人实现AI智能助手
人工智能·语言模型·机器人·飞书·ai编程
北京耐用通信7 小时前
航空装配自动化神器Ethercat转profient网关搭配机器人精准控制
运维·机器人·自动化
AIBigModel7 小时前
从零开始自主「起身站立」,上海AI Lab发布最新控制算法,机器人:起猛了
人工智能·机器学习·机器人
QQ_21932764557 小时前
自走式除草机器人结构设计
人工智能·机器人
寒鸦xxx7 小时前
想转行做春晚那种扭秧歌的机器人,大概要会点什么?
机器人
better-tomorrow7 小时前
自动化测试企业微信推送:群机器人(三)
机器人·企业微信
kakaZhui7 小时前
【多模态大模型】GLM-4-Voice端到端语音交互机器人VoiceAI
人工智能·chatgpt·机器人·aigc·llama
Dymc17 小时前
【机器人系列之硬件和软件架构设计】
机器人