斯坦福李飞飞《AI Agent:多模态交互前沿调查》论文多模态AI系统很可能会在我们的日常生活中无处不在。将这些系统具身化为物理和虚拟环境中的代理是一种有前途的方式,以使其更加互动化。目前,这些系统利用现有的基础模型作为构建具身代理的基本构件。将代理嵌入这样的环境中,有助于模型处理和解释视觉和上下文数据的能力,这是创建更复杂且具备上下文感知的AI系统的关键。例如,一个能够感知用户动作、人类行为、环境对象、音频表达以及场景整体情绪的系统,可以用于指导代理在特定环境中的响应行为。翻译而来供参考,*亦可加入知识星球*阅读英文原版、中文译本(见文末)。