Agent AI：智能代理AI：多模态交互视野的探究

第一部分：文章的介绍

1.AGENT AI:

为什么叫AGENT(代理)："代理"一词在人工智能领域源于计算机科学和软件工程中的"代理（Agent）"概念，这个词指的是一个实体，能够在给定的环境中感知信息、做出决策并采取行动来实现特定目标。这与代理的定义非常相似，代理可以代表用户或程序自主完成任务。
Agent AI与AI Agent的区别：

Agent AI：指一种专注于与人类和环境交互的人工智能系统，强调AI在执行任务时的主动性和互动性，不只是基于规则的简单系统，而是更关注智能体在动态环境中的适应性，通常涉及多模态输入（如视觉、语言和物理行为），强调与真实世界的智能交互。

AI Agent：泛指任何具备某种人工智能功能的代理系统。这可以是简单的AI助手，比如日常使用的智能客服机器人，也可以是高级AI系统。AI Agent 并不一定要求具身化（embodied）或多模态交互，只要它能够自主完成特定任务、作出某种决策或行为，它都可以被称为AI Agent

2.多模态人工智能系统的前景：

作者认为多模态人工智能系统可能将会影响我们每天的生活，多模态人工智能系统前景很好。

3.AGENT AI（多模态交互自主决策的智能系统）领域的关注点

把大型基础模型嵌入到物理环境和虚拟环境中可以减少模型的幻觉和偏见。Agent AI领域关注智能体如何在物理或虚拟环境中感知、理解和响应多模态输入，并基于这些输入做出自主决策和行动。

传统多模态交互技术：这通常指的是系统能够处理和响应来自不同模态（如视觉、听觉、触觉等）的输入。例如，一个智能助手能够理解用户的语音指令（听觉）并提供视觉反馈（视觉）。这些技术已经在人机交互、虚拟助手和一些自动化系统中得到了广泛应用

更广泛的具身和代理方面：具身（embodied）方面强调智能体与其物理或虚拟环境的互动，而代理（agent）方面则关注智能体的自主性、目标导向和决策能力。具身代理（embodied agents）不仅能够感知环境，还能够在环境中采取行动以实现特定目标

例如，一个机器人导航系统不仅需要理解视觉信息来识别物体，还需要能够规划路径并在物理空间中移动。

4.整体性原则：

目前的人工智能系统，就是把整个人工智能这个整体的东西，进行了分解，划分了很多子领域，比如，划分为单独处理视觉的、单独处理自然语言的、单独处理语音的、单独处理手势的等。我认为这是一个必经的道路，当这个道路走到一定的程度，随着矛盾的暴露，人类就会反思，对现状进行改进，这就符合马克思的矛盾论，矛盾驱动前进。目前的这些人工智能系统只是在各自的领域表现得很好，但是脱离各自的领域就表现的不太好。那么如果我要处理一个很复杂的任务，比如这个任务包含语音、图片等使用单一模型就无法处理了。

文中的就是想要一个模型能够统一这些领域，以达到像人类一样能够在不同的环境中，动态的学习，适应环境，然后做出对应的响应。

其实我们使用多个模型在一起处理复杂的问题，那么他们之间的协作性不会有整体性的能力好。

5.新的研究方向：

在1956年的达特茅斯会议中给人工智能系统进行了定义：能够从环境中收集信息并以有用的方式与这些信息进行交互（就是学习）的人工生命形式。

这个人工智能系统定义的实践：明斯基的MIT小组根据这个人工智能系统的定义建立了一个称为"复制样例"的机器人系统，这个机器人系统观察"块世界"并且成功的重新构建了观察到的多面体块结构。

为了打破这个问题，本文把思想重新拉回到亚里士多德整体论驱动的人工智能。

如何利用多模态的输入（如视觉、语言、行为等）设计体现性智能体，以便这样的人工智能体能在物理和虚拟环境中更好的感知和响应。这种方式能让AI系统在复杂环境中动态适应并作出响应。

如何设计一个先进的人工智能体（AGENT AI），AGENT AI 可以接收多模态的输入，做出对应的响应，而且这个AGENT AI还能在交互中学习、反馈中学习、观察中学习，不是现在的静态数据的学习训练。

6.LLMs和VLMs的作用：

很幸运的是，LLMs和VLMs的出现使这个想法（创建整体性的新型人工智能体）成为了可能。可以利用LLMs和VLMs来实现这个想法。

本文探讨的就是利用LLMs和VLMs来创作一个整合语言能力、视觉认知能力、情境记忆、直觉推理和适应性的模型。

LLM的能力：LLMs现在展现了一个令人深刻的能力，就是可以解码现实世界语言数据细微差别的能力，而且这个能力通常能达到人类水平甚至能超越人类。

VLM的能力：**：**最近的研究者已经证明LLMs可以被扩展作为在各种各样的环境中的智能体，当与特定领域的知识和模型配合使用时可以执行复杂的行为和任务。

7.人工智能发展的新模式：

人工智能的实现模式在发生转变，从结构化任务、被动式创建的AI模型过渡到能够在多样、复杂的环境中，能够承担动态的、智能体角色的模型。

8.AGENT AI新范式（框架）

多模态与跨现实通用人工智能的新兴智能体AI范式

Embodiment：具身性指的是智能体通过与物理世界的交互体现其智能，比如机器人通过其机械结构执行动作，与周围环境互动，这个概念强调智能体的物理存在和与环境的直接交互。

Agent Parading：智能体范式，指的是一种理解和设计智能系统的方法论，强调智能体在环境中的感知、决策和行动，以及与环境的交互模式。

generative AI：生成式AI，能够基于输入数据自动生成新内容的人工智能模型它们通过学习大量已有数据的模式、结构和特征，生成与之相似的内容。生成式 AI 在多个领域有广泛应用，包括文本生成、图像生成、音乐创作等。

这个图的划分：

1.纵向分层

理论（Theory）：最底层涉及理论基础，如哲学、物理学、机器学习理论和信息学，这些为AI的构建提供了概念框架。
数据（Data）：包含用于训练和运行AI的各种数据类型，如2D图像、视频、语音、文本和大数据，这些是AI模型理解和学习的基础。
基础设施（Infrastructure）：包括支持AI运行的硬件和平台，如多模态传感器、多GPU服务器、物联网设备和云服务器等。
应用（Application）：展示了AI在现实和虚拟环境中的实际应用，如服务机器人、增强现实系统、虚拟助手、制造系统和游戏。

2.横向分类

图中横向划分为物理世界（Physical World） 、虚拟世界（Virtual World） 、智能体范式（Agent Paradigm） 、具身化（Embodiment）和产品（Product），代表AI应用的不同领域和目标。

物理世界：涉及到如服务机器人、摄像头和传感器等实际设备的应用，强调AI与现实环境的交互。
虚拟世界：涵盖虚拟现实、社交网络、模拟器等，展示AI如何在数字环境中发挥作用。
智能体范式：描述多模态智能体的组成，如大语言模型（LLMs）、视觉语言模型（VLMs）、推理和记忆系统，这些让AI具备人类般的多模态能力。
具身化（Embodiment）：指将AI应用于机器人控制、机械臂和人机交互系统，以实现智能体在物理空间中的行为表现。
产品（Product）：展示最终AI的产品化应用，如自动驾驶、AI健康助手、生成式AI等。

3. 中心部分：任务规划与交互闭环

图的中心部分展示了一个完整的任务规划与技能观察 的闭环过程，结合了环境交互、感知、认知、行动和反馈学习。这个闭环强调了AI系统如何不断适应环境并提高自己的决策和执行能力。

ML理论：是机器学习中的一个研究领域，关注分析和理解机器学习算法的数学基础和理论特性。它研究模型的泛化能力、学习算法的效率和可行性、模型的复杂度等。

这个图展示了一个多维度的框架，其中每一列都代表了不同的"世界"或"领域"，并且每个领域都从理论基础到实际应用有一个完整的发展路径。具体来说：

物理世界（Physical World）：

理论（Theory）：包括物理学等基础科学理论。

基础设施（Infrastructure）：包括摄像头、麦克风、物联网设备等。

数据（Data）：包括物理实验数据、人类活动数据等。

应用（Application）：包括服务机器人、环境智能等。

虚拟世界（Virtual World）：

理论（Theory）：可能包括计算机图形学、虚拟现实技术等。

基础设施（Infrastructure）：包括社交网络、云服务器等。

数据（Data）：包括视频、文本、大数据分析等。

应用（Application）：包括虚拟现实、增强现实、虚拟化身等。

代理范式（Agent Paradigm）：

理论（Theory）：涉及人工智能、机器学习理论等。

基础设施（Infrastructure）：包括大型语言模型（LLMs）、视觉语言模型（VLMs）等。

数据（Data）：包括训练数据、观察数据等。

应用（Application）：包括通用代理、自主车辆、助理等。

体现（Embodiment）：

理论（Theory）：可能包括控制理论、机械工程等。

基础设施（Infrastructure）：包括机器人控制器、执行器等。

数据（Data）：包括用户/代理输入、特定任务信息等。

应用（Application）：包括自主车辆、制造系统、嵌入式系统等。

产品（Product）：

理论（Theory）：涉及产品设计、用户体验等。

基础设施（Infrastructure）：可能包括智能传感器、机械臂等。

数据（Data）：包括用户反馈、产品性能数据等。

应用（Application）：包括游戏、AI副驾驶、健康AI等。

AGENT AI范式核心循环的过程

任务规划和技能观察

任务规划：智能体首先需要规划任务，这就涉及到理解环境和设定目标

技能观察：指智能体观察和学习完成任务所需的技能
环境：提供代理提供智能体需要感知和交互的信息------>感知：智能体通过感知环境来获取信息，这是认知过程的第一步

认知：智能体处理感知到的信息，进行思考、意识、感知、同理心等高级认知活动，这是智能体理解世界和做出决策的基础

行动：基于认知过程，代理采取行动来实现目标或响应环境

控制器：控制器管理智能体的行动，确保行动与任务规划和认知过程相一致

学习：智能体通过学习来改进其技能和知识，包括预训练、零样本学习、少样本学习等学习方法，通常从LLM和VLM中学习

记忆：智能体的记忆存储了知识、逻辑、推理和推断，这些是智能体学习和决策的基础

反馈：智能体的行动和学习结果会反馈到认知和感知过程中，形成一个闭环，使得智能体能够不断学习和适应

第二部分：文章细节

1.Agent AI融合

基于LLMs和VLMs的基础模型在具体化AI的领域还存在一些不足：特别是在新的未见过的环境和场景进行理解、交互、编辑、生成方面表现的不好

通过集成AGENT AI框架大型基础模型能够更深入地理解用户输入，从而形成复杂且自适应的HCI系统。就是说在基础大模型上面的进步为具身智能代理的发展提供了加速器

LLM和VLM新兴的能力在生成式AI、具身AI、多模态学习的知识增强、混合现实生成、文本到视觉编辑、游戏或机器人任务中的2D/3D模拟的人机交互中发挥着无形的作用

正在探索如何通过结合大型基础模型进行知识引导的协作和交互场景生成任务，以提高2D和3D场景理解、生成和编辑的性能

1.无限智能体（无限学习的智能体）

AI代理通常有以下的能力：

预测能力：可以预测相似的结果、下一步的建议基于历史的数据和趋势，比如文章的上下文、机器人的下一步等
决策：AI代理可以根据他们的推断做出决策，一般来说，会根据最可能去实现特定目标的方式进行决策
处理歧义：AI可以根据上下文和训练数据来处理不明确的输入，这个是受到训练数据和算法的限制
持续改善：一些AI可以从新的数据中和交互中学习，但是大多数的AI知识依赖于最近训练的数据

图2：用于 2D/3D 的多模型代理 AI 体现了跨现实中的生成和编辑交互

Cross-Reality Agent for 2D/3D Embodied Generation and Editing Interaction：

用于2D/3D具身生成和编辑交互的跨现实代理，它能够在不同的现实环境（如物理现实和虚拟现实）之间无缝工作，支持2D和3D场景的生成与编辑。该代理利用具身智能的概念，能够理解并操作复杂的场景，并实现灵活的多模态交互。这种跨现实能力使得代理能够适应和操作各种不同的交互空间，无论是虚拟的还是物理的环境。
DallE-2:是由 OpenAI 开发的一种基于人工智能的图像生成模型，它可以根据用户输入的文本描述生成高质量的图像。只能生成2D图像
Knowledge Agent QA： 指的是一种人工智能系统，它能够基于特定的知识库处理问题并提供答案。这个术语涵盖了从简单的基于规则的代理到复杂的基于机器学习的模型，特别是在自然语言处理（NLP）领域中，它被广泛应用，知识代理系统的核心任务就是人类提问，系统回答，并根据它所掌握的知识库提供精准的答案。
GPT-X： GPT是由OpenAI开发的一系列基于Transformer架构的生成式预训练语言型， GPT-X 目前并不是一个具体的正式名称，而是一个可能代表未来版本的术语，通常用于描述将来可能发布的 GPT（Generative Pre-trained Transformer） 模型的更高版本。
自然语言直接生成3D图像

所以Infinite AI agent是一种人工智能代理，能够在没有时间或空间限制的情况下持续学习、进化和执行任务。

上面的这个例子就是把多模态交互和大型基础模型结合，和无限学习，并且表现的很好

2. 具有大型基础模型的智能代理

**大型基础模型的作用：**创建数据方面发挥着至关重要的作用，这些数据可以作为确定代理在环境约束下的行为的基准。比如，机器人的操作和机器人的导航

人们对指令产生有意义的动作很感兴趣。

下面是使用大型基础模型关注的一些问题：

1.幻觉

**问题：**文本生成代理生成的结果往往是乱说的或者与指令内容无关，幻觉分为：内部和外部的

内：如果你问"谁是美国的第一任总统？"模型回答"亚伯拉罕·林肯

外：例如，如果你问"谁是美国的第一任总统？"模型回答"猫是一种非常流行的宠物

有前途的解决方法：为自然语言的输出奠定了基础的方法

1.检索增强生成

2.其他通过外部知识检索

这些方法就是通过检索额外的内容来增强语言模型的输出

问题：研究证明VLM也会产生输出结果的幻觉

原因：基于视觉的语言生成模型过度依赖训练数据的对象和视觉线索的共现

所以以上会产生一个问题：完全依赖预训练的LLMs或VLMs并且是在特定环境中微调的智能代理，的输出会很容易产生幻觉

2.偏见和包容性

包容性： 是指为确保代理的响应和交互对来自不同背景的广泛用户具有包容性、尊重性和敏感性而采取的措施和原则

确保偏见和包容性的关键在下面的几个方面：

训练数据
历史和文化的偏见
语言和语境的限制
政策和准则
过度概括
持续监控和更新
主流观点的放大
道德和包容性设计
用户指南

上面的这些措施并不能完全消除偏见和解决包容性问题，这就是一个研究的重点，下面是减少偏见的努力：

多样化、包容性的培训数据：在训练数据中使数据更加多样化更具有包容性
现在进行的研究重点就是检测和纠正模型响应中的偏差
道德准则和政策的制约
确保人工智能代理生成的内容或提供的响应代表广泛的人类经验、文化、种族和身份。
积极努力减少人工智能反应中的偏见。
人工智能的设计具有文化敏感性，承认并尊重文化规范、实践和价值观的多样性。这包括理解并适当回应文化参考和细微差别。
确保人工智能代理可供具有不同能力的用户（包括残障人士）访问。这可能涉及整合一些功能，使有视觉、听觉、运动或认知障碍的人能够更轻松地进行互动。
提供对多种语言和方言的支持，并对语言内的细微差别和变化保持敏感
避免可能被视为冒犯、有害或不尊重的回应。
用户反馈和适应
遵守包容性指南

人工智能代理技术和道德实践的不断改进旨在随着时间的推移减少这些偏见。人工智能代理包容性的首要目标之一是创建一个尊重所有用户且易于访问的代理，无论其背景或身份如何