1. 系统概览
该系统能够在不同领域和应用中感知和行动。
Agent AI 正逐渐成 AGI 的一个有前景的方向。
Agent AI 的训练展示了其在物理世界中实现多模态理解的能力。它通过结合生成式 AI 和多个独立数据源,Agent AI 提供了一种与现实环境无关的训练框架。
通过处理跨现实(物理与虚拟)数据来提升其适应性,增强在物理世界与虚拟环境中行动的能力。
图中展示了一个 Agent AI 系统的总体概览,它能够在许多不同的领域和应用中感知并采取行动 ,可能成为通过代理范式实现 AGI 的路径之一。

多模态人工智能系统可能会成为我们日常生活中无处不在的一部分。想要与这些系统更好交互的一个有前景的方法是:将它们作为 agent 嵌入到物理和虚拟环境中。
目前,系统利用现有的基础模型作为构建具身代理体(embodied agents)的基本模块 。将 agent 嵌入这样的环境中,可以增强模型处理和解释视觉及上下文数据的能力,而这是构建更复杂、更具上下文感知能力的人工智能系统的关键。
例如,一个能够感知用户行为、人类行为、环境对象、音频表达以及场景整体氛围的系统,可以用来在特定环境中引导和调整 agent 的响应。
为了加速基于代理体的多模态智能的研究,我们将"Agent AI"定义为一类能够感知视觉刺激、语言输入以及其他与环境相关数据的交互式系统,并能够生成有意义的具身行为。 特别是,我们探索了通过整合外部知识、多感官输入和人类反馈,提升 agent 基于下一步具身动作预测能力。
我们认为,通过在具体环境中开发具身的智能体系统,可以缓解大型基础模型产生幻觉和生成与环境不符的倾向。
Agent AI 这一新兴领域涵盖了多模态交互中更广泛的具身化和智能体特性方面(Agentic aspects)。
这里的agentic
指智能体具备的特性,包括自主性、目标导向性和与环境或其他智能体的交互能力。)。除了代理体在物理世界中的行动和互动,我们还设想了一个未来:人们可以轻松创建任何虚拟现实或模拟场景,并与嵌入虚拟环境中的代理体进行互动。
为了突破现状,有必要回归由亚里士多德整体论(Aristotelian Holism)激发的人工智能基础理论。幸运的是,最近大语言模型(LLMs)和视觉语言模型(VLMs)的革命,使得创建与整体理念一致的新型 AI 代理体成为可能。
**抓住这一机遇,本文探讨了整合语言能力、视觉认知、上下文记忆、直觉推理和适应性的模型,并探讨了利用 LLMs 和 VLMs 实现这一整体综合的潜力。
元能力
- 整合语言能力
- 视觉认知
- 上下文记忆
- 直觉推理
- 适应性
** 在探索过程中,我们还重新审视了基于亚里士多德'终因'(Final Cause)的系统设计,即 系统存在的目的 这一目的论理念,这可能在过去的 AI 发展中被忽视了。
系统存在的目的
在这些初步努力的基础上,人工智能领域正处于一个重要范式转变的边缘,即从为被动、结构化任务创建 AI 模型,向能够在多样化和复杂环境中承担动态、主动角色的模型转变。
1. 背景:具身智能:任务规划
具身 AI(Embodied AI):许多研究利用大型语言模型(LLMs)执行任务规划:
,方法是将自然语言指令分解为一系列子任务,这些子任务可以以自然语言形式或 Python 代码表示,然后由低级控制器执行这些子任务。
此外,这些研究结合环境反馈来提升任务执行性能。
1.1 交互式学习
交互式学习: 用于交互式学习的 AI 智能体,结合了机器学习技术和用户交互,通过用户交互反馈让模型进一步学习。初始阶段,AI 智能体基于大型数据集进行训练。根据智能体的设计初衷,该数据集包含各种类型的信息。例如,用于语言任务的 AI 会训练于大规模文本语料库。训练过程采用机器学习算法,例如深度学习模型(如神经网络),这些模型使 AI 能够识别模式、进行预测,并基于所训练的数据生成响应。此外,AI 智能体还可以从与用户的实时交互中学习。 这种交互式学习可以通过多种方式进行:
1)基于反馈的学习:AI 根据用户的直接反馈调整其响应,例如,如果用户纠正了 AI 的响应,AI 可以利用这些信息改进未来的响应。
2)观察学习:AI 通过观察用户交互进行隐形学习。例如,如果用户经常提出类似的问题或以特定方式与 AI 互动,AI 可能会调整其响应以更好地适应这些模式。这种方式使 AI 智能体能够理解并处理人类语言、多模态环境,解释跨现实情境并生成适合用户的内容。
随着更多的用户交互和反馈积累,AI 智能体的性能通常会持续提升。这一过程通常由人类操作员或开发人员监督,以确保 AI 学习适当,不会形成偏差或错误模式。
基础技术
- 大型基础模型(LLMs&VLMs)
- 具身 AI(Embodied AI)
- 交互式学习(基于反馈的学习&观察学习)