The Rise and Potential of Large Language Model Based Agents: A Survey 中文翻译

大型语言模型代理的崛起与潜力：综述

摘要

长期以来，人类一直追求与或超越人类水平的人工智能（AI），而人工智能代理被视为实现这一目标的有希望的方式。人工智能代理是感知环境、做出决策并采取行动的人工实体。已经有很多关于开发智能代理的努力，但它们主要集中在算法或训练策略方面的改进，以提高特定任务的能力或性能。实际上，社区缺乏一个通用且强大的模型，可以作为设计适应各种情况的人工智能代理的起点。由于它们所展示的各种能力，大型语言模型（LLMs）被认为是人工通用智能（AGI）的潜在火花来源，并为构建通用人工智能代理提供了希望。许多研究人员利用 LLM 作为基础来构建人工智能代理，并取得了重大进展。在本文中，我们对基于 LLM 的代理进行全面调查。我们从追溯代理的概念从其哲学起源到它在人工智能中的发展开始，并解释为什么 LLM 是适合代理的基础。在此基础上，我们提出了一种基于 LLM 的代理的一般框架，包括三个主要组件：大脑、感知和行为，该框架可以根据不同的应用进行定制。随后，我们在三个方面探索了基于 LLM 的代理的广泛用途：单智能体场景、多智能体场景和人机合作。接下来，我们深入研究了代理社会，探讨了基于 LLM 的代理的行为和个性、代理社会产生的社会现象以及它们给人类社会带来的启示。最后，我们讨论了该领域的一些关键主题和待解决的问题。

有关相关论文的存档，请参见 https://github.com/WooooDyy/LLM-Agent-Paper-List

1. 简介

"如果他们发现一只鹦鹉能够回答所有问题，我会毫不犹豫地宣称它是一种智能生物。"

------狄德罗，1759年

人工智能（AI）是一门致力于设计和开发能够模仿人类智能和能力的系统的学科。早在18世纪，哲学家Denis Diderot就提出了一个想法，如果鹦鹉能对每个问题都做出回应，那它就可以被认为是聪明的。虽然Diderot指的是像鹦鹉这样的生物，但他的观点突出了高度智能的有机体可能类似于人类智能的概念。在20世纪50年代，Alan Turing将这个概念扩展到人工实体，并提出了著名的图灵测试。该测试是人工智能的一个基石，旨在探索机器是否可以表现出与人类相似的智能行为。这些人工智能实体通常被称为"代理"，构成了人工智能系统的基本构建块。在人工智能中，代理通常指具有传感器感知周围环境、做出决策并使用执行器采取相应行动的人工实体。[1][4]

智能体的概念起源于哲学，其根源可以追溯到亚里士多德和休谟等思想家。[5] 它描述了具有欲望、信念、意图以及采取行动能力的实体。[5] 这个想法过渡到了计算机科学领域，旨在使计算机能够理解用户的兴趣，并代表他们自主地执行操作。[6；7；8] 随着人工智能的发展，"智能体"的术语在人工智能研究中找到了自己的位置，用于描述展示智能行为并具备自主性、反应性、主动性和社会能力等特质的实体。[4；9] 自那时以来，代理人的探索和技术进步已成为人工智能社区的重点关注点。[1；10] 现在认为人工智能代理是实现人工通用智能（AGI）的关键一步，因为它们包含了广泛智能活动的潜力。[4；11；12]

自二十世纪中叶以来 ，随着研究深入到智能代理的设计和实现，显著取得了进展[13；14；15；16；17；18]。然而，这些努力主要集中在增强特定能力，如符号推理，或掌握特定任务 ，如围棋或国际象棋[19；20；21]。在各种情况下实现广泛适应性仍然遥不可及。此外，以往的研究更多地强调算法设计和训练策略，而忽视了模型固有的通用能力的发展，例如知识记忆、长期规划、有效泛化和高效交互[22；23]。事实上，提高模型的固有能力是进一步推进代理的关键因素，该领域需要一个强大的基础模型，具备上述多种关键属性，作为智能体系统的基础。

大语言模型 (LLMs) 的发展为代理 [24; 25; 26] 的进一步发展带来了希望，社区已经取得了重大进展[22; 27; 28; 29]。根据涵盖五个层次的概念，即描述从自然语言处理到通用人工智能（例如语料库、互联网、感知、体现和社会）研究进度的世界范围（WS），纯LLMs 建立在第二层，具有互联网规模的文本文本输入输出。尽管如此，LLMs 在知识获取、指令理解、泛化、规划和推理方面显示出强大的能力，同时能够有效地与人类进行自然语言交互。这些优势使 LLMs 被称为AGI 的火花[31]，使其成为构建智能体的理想选择，以实现人与代理和谐共处的世界[22]。以此为基础，如果我们将 LLMS 提升到智能体地位，并为其提供扩展的感知空间和行动空间，它们有可能达到WS的第三和第四级。此外，基于LLM的代理可以通过合作或竞争来解决更复杂的问题，当他们放在一起时可以观察到涌现的社会现象，可能实现第五个WS级别。如图1所示，我们设想一个由AI代理组成的和谐社会，其中人类也可以参与。

在本文中，我们提出了一篇全面系统的综述，重点放在基于语言模型 (LLM) 的代理上，试图调查这个新兴领域的现有研究和潜在途径。为此，我们首先深入探讨了关键背景信息（第 2 节）。具体来说，我们从哲学到人工智能领域追溯了人工智能代理的起源，并简要概述了

围绕人工代理的存在展开辩论（§ 2.1）。接下来，我们将从技术趋势的角度提供对人工智能代理发展的简要历史回顾（§ 2.2）。最后，我们深入介绍代理的基本特征，并阐述为什么大型语言模型非常适合用作人工智能代理的大脑或控制器的主要组成部分（§ 2.3）。

受代理定义的启发，我们为基于LLM的代理提出了一个通用的概念框架，包括三个关键部分：大脑、感知和行动（第3节），该框架可以针对不同的应用进行定制。首先介绍大脑，它主要由大型语言模型组成（第3.1节）。与人类一样，大脑是AI代理的核心，因为它不仅存储重要的记忆、信息和知识，还承担着处理信息、决策、推理和规划等基本任务。它是决定代理能否表现出智能行为的关键因素。接下来，我们介绍了感知模块（第3.2节）。对于代理而言，这个模块的作用类似于人类的感觉器官。它的主要功能是从仅包含文本的感知空间扩展到包含多种感官模态的空间，例如文本、声音、视觉、触觉、气味等等。这种扩展使代理能够更好地感知来自外部环境的信息。最后，我们展示了用于扩展代理动作空间的动作模块（第3.3节）。具体来说，我们希望代理能够拥有文本输出能力、执行身体动作并使用工具，以便更好地响应环境变化并提供反馈，甚至改变和塑造环境。

然后，我们提供了基于语言模型的代理的实际应用的详细而全面的介绍，并阐明了基础设计追求------"利用人工智能为善"（第4节）。首先，我们深入研究了一个代理的当前应用，并讨论了它们在文本任务和模拟探索环境中的性能，重点介绍了它们处理特定任务、推动创新以及展示类人生存技能和适应性的能力（第4.1节）。接下来，我们回顾了多代理的发展历史。我们介绍了在基于语言模型的多代理系统应用中代理之间的交互，他们参与合作、协商或竞争。无论互动模式如何，代理都会共同努力实现共同的目标（第4.2节）。最后，考虑到基于 LLM 的代理在隐私安全、道德约束和数据缺陷等方面的潜在局限性，我们讨论了人机协作。我们总结了代理人与人类之间的协作范式：教练 - 执行者范式和平等合作伙伴范式，并给出了具体的应用程序示例（第4.3节）。

在基于 LLM 的代理的实际应用探索的基础上，我们现在将注意力转向"代理社会"的概念，以研究代理与其周围环境之间错综复杂的关系（第 5 节）。这一节首先探讨这些代理是否表现出类似人类的行为，并且是否具有相应的个性（第 5.1 节）。此外，我们还介绍了代理操作的社会环境，包括文本环境、虚拟沙盒和物理世界（第 5.2 节）。与前一节（第 3.2 节）不同的是，这里我们将重点放在各种类型的环境中，而不是代理如何感知它。在建立了代理及其环境的基础之后，我们继续揭示它们形成的模拟社会（第 5.3 节）。我们将讨论模拟社会的构建方式，并进一步考察从中产生的社会现象。具体来说，我们将强调模拟社会中固有的教训和潜在风险。

最后，我们讨论了基于语言模型代理的各种关键主题（§ 6）和开放性问题：（1）基于语言模型的研究与代理研究之间的相互益处及启发，其中我们证明了基于语言模型的代理为代理社区和语言模型社区提供了许多机会（§ 6.1）; （2）从效用、社交能力、价值观以及持续进化的四个方面对现有评估工作进行了概述，并对未来基于语言模型的代理提出了一些展望（§ 6.2）；（3）基于语言模型代理的潜在风险。我们还讨论了其他一些风险，如滥用、失业和对人类福祉的威胁（§ 6.3）；（4）增加代理数量的问题，在这里我们讨论了增加代理数量的潜在优势和挑战，以及预先确定和动态缩放的方法（§ 6.4）；（5）几个开放性问题，例如关于基于语言模型的代理是否代表AGI的一种可能路径的辩论，虚拟仿真环境向物理环境的挑战，人工智能代理中的集体智能，以及代理即服务（§ 6.5）。最后，我们希望本文能为相关领域的研究人员和从业者提供灵感。

背景

在这一部分，我们提供了关键背景信息，为后续内容（第 2.1 节）奠定基础。首先，我们讨论了人工智能代理的起源，从哲学到人工智能领域，并结合了关于人工代理存在性的讨论（第 2.2 节）。然后，我们通过技术趋势的视角总结了人工智能代理的发展历程。最后，我们介绍了代理的关键特征，并说明为什么语言模型 (LLMs) 是适合用作人工智能代理大脑主体的主要组成部分（第 2.3 节）。

2.1 AI代理的起源

"代理"的概念有着悠久的历史，它在许多领域中被研究和解释。在这里，我们首先探讨其哲学渊源，讨论人工制品是否能够在哲学意义上拥有代理权，并检查相关概念是如何引入人工智能领域的。

哲学中的代理人。代理人的核心思想源于哲学讨论的历史背景，其根源可以追溯到亚里士多德、休谟等有影响力的思想家[5]。一般而言，"代理人"是指具有行动能力的实体，而"代理权"一词则表示这种能力的行使或表现[5]。而在狭义上，"代理权"通常用于指故意行为的表现；相应地，"代理人"指的是具有欲望、信仰、意图和行动能力的实体[32; 33; 34; 35]。请注意，代理人不仅包括人类个体，还包括物理世界和虚拟世界中的其他实体。重要的是，代理人的概念涉及个人自主性，赋予他们能够行使意志、做出选择和采取行动的能力，而不是被动地对外部刺激做出反应。

从哲学的角度来看，人工实体是否具有行动能力？通常情况下，如果我们将代理人定义为有能力采取行动的实体，那么人工智能系统确实表现出了一种代理性[5]。然而，"代理"一词更常用来指拥有意识、意向性和行为能力的实体或主体[32; 33; 34]。在这一框架下，目前尚不清楚人工系统能否具备代理性，因为它们是否有内在状态以形成赋予欲望、信仰和意图的基础还不确定。一些人认为，将意向性等心理状态归因于人工代理是一种人类中心主义，并且缺乏科学严谨性[5; 36]。正如Barandiaran等人[36] 所说："对代理要求的具体说明告诉了我们关于发展人工代理形式还需要多少。"相比之下，也有研究人员认为，在某些情况下，采用意向性视角（即用意向来解释代理行为）可以更好地描述、解释和抽象人工代理的行为，就像它被用于人类一样[11; 37; 38]。

随着语言模型的进步，人工有意代理的潜在出现似乎变得越来越有希望。[24][25][39][40][41]在严格意义上，语言模型只是一种条件概率模型，它利用输入来预测下一个标记。[42]人类则不同，他们结合了社会和感知背景，并根据自己的精神状态说话。[43][44]因此，一些研究人员认为当前的语言建模范式与代理的意向性行为不兼容。[30][45]然而，也有研究人员提出，在狭义上，语言模型可以作为代理的模型。[46][47]他们认为，在基于上下文的下一个单词预测过程中，当前的语言模型有时可以推断出生成该上下文的代理的信念、欲望和意图的大致、部分表示。通过这些表示，语言模型可以像人类一样生成句子。为了支持他们的观点，他们进行了实验以提供一些经验证据。[46][48][49]

在人工智能中引入代理。直到 20 世纪 80 年代中期到末期，主流人工智能研究界才开始相对较少地关注与代理相关的概念，这可能会令人惊讶。自那以后，计算机科学和人工智能领域对这一主题的兴趣显著增加[50; 51; 52; 53]。Wooldridge 等人([4]) 指出，我们可以将人工智能定义为旨在设计和构建能够表现出智能行为方面方面的基于计算机的代理的计算机科学子领域。因此，我们可以把"代理"作为人工智能的一个核心概念。当代理的概念被引入人工智能领域时，它的含义经历了一些变化。在哲学领域，代理可以是人类、动物，甚至是可以自主行事的概念或实体[5]。然而，在人工智能领域，代理是一种计算实体[4; 7]。由于诸如意识和欲望等概念似乎具有形而上学的本质，并且我们只能观察机器的行为，包括艾伦·图灵在内的一些人工智能研究者建议暂时搁置代理是否"真正"思考或是否拥有"心灵"的问题[3][11]。研究人员使用其他属性来帮助描述代理，例如自主性、反应性、主动性和社会能力[4; 9]。也有研究者认为，"智力"存在于观察者的眼中；它不是固有的、孤立的特性[15; 16; 54; 55]。简而言之，人工智能代理不等于哲学代理，而是人工智能语境下代理概念的实现。本文将人工智能代理视为能够使用传感器感知周围环境、做出决策并使用执行器采取相应行动的人工实体[1; 4]。

2.2 智能体研究中的技术趋势

AI 代理的演化经历了几个阶段，这里我们从技术趋势的角度来简要回顾其发展。

符号代理。在人工智能研究的早期阶段，占主导地位的方法是符号AI ，其特点是依赖于符号逻辑 [56； 57]。这种方法使用逻辑规则和符号表示来封装知识并促进推理过程。早期的人工智能代理是基于这种方法构建的[58]，并且主要专注于两个问题：转录问题和表示/推理问题[59]。这些代理人旨在模拟人类的思维模式。他们具有明确且可解释的推理框架，由于其符号性质，表现出高度的表达能力。[13][14][60]知识基础专家系统是这种方法的一个经典例子。然而，符号代理在处理不确定性以及大规模现实世界问题时遇到了局限性。[19][20]此外，由于符号推理算法的复杂性，很难找到一种能够在有限时间内产生有意义结果的有效算法。[20][61]

反应型代理。与符号代理不同，反应型代理不使用复杂的符号推理。相反，它们主要关注代理与其环境之间的相互作用，并强调快速、实时的响应[15, 16, 20, 62, 63]。这些代理主要基于感觉-动作循环，高效地感知并对其环境做出反应。这种代理的设计优先考虑直接的输入输出映射，而不是复杂的推理和符号操作[52]。然而，反应型代理也有其局限性。它们通常需要更少的计算资源，从而实现更快的响应速度，但可能缺乏复杂的高层决策和规划能力。

基于强化学习的代理。随着计算能力和数据可用性的提高，以及对智能体与其环境之间相互作用模拟的兴趣不断增加，研究人员已经开始使用强化学习方法来训练代理，使其能够应对更具挑战性和复杂性任务[17; 18; 64; 65]。这一领域的首要关注点是如何使代理能够通过与环境的交互来学习，使其能够在特定任务中获得最大累积奖励[21]。最初，强化学习（RL）代理主要基于基本技术，如策略搜索和值函数优化，例如Q-Learning[66]和SARSA[67]。随着深度学习的兴起，深度神经网络和强化学习的结合，即深度强化学习（DRL），出现了[68; 69]。这使得代理可以从高维输入中学习复杂的策略，导致诸如AlphaGo[70]和DQN[71]等许多重要的成就。这种方法的优势在于它可以让代理在未知环境中自主学习，而无需明确的人类干预。这使得它可以在从游戏到机器人控制等各种领域广泛应用。尽管如此，强化学习仍然面临着诸如长时间训练、低采样效率和稳定性问题等诸多挑战，特别是在应用于复杂的现实世界环境时[21]。

具有迁移学习和元学习的代理。传统上，训练强化学习代理需要大量的样本和长时间的训练，并且缺乏泛化能力[72；73； 74； 75； 76]。因此，研究人员引入了迁移学习来加速代理在新任务上的学习[77； 78； 79]。迁移学习减少了在新任务上进行训练的负担，并促进了知识在不同任务之间的共享和迁移，从而提高了学习效率、性能和泛化能力。此外，元学习也被引入到AI代理中[80； 81； 82； 83； 84]。元学习专注于学习如何学习，使代理能够从少量示例中快速推断出针对新任务的最优策略[85]。这种代理在面临新任务时，可以利用已获得的一般知识和策略迅速调整其学习方法，从而减少对大量样本的依赖。然而，当源任务与目标任务之间存在重大差异时，迁移学习的有效性可能会低于预期，并且可能存在负迁移[86； 87]。此外，元学习所需的大量预训练和大量样本使得很难建立通用的学习策略[81； 88]。

基于大语言模型的代理。由于大语言模型展示了惊人的新兴能力并获得了巨大的流行度，研究人员已经开始利用这些模型来构建人工智能代理。具体来说，他们使用 LLM 作为这些代理的大脑或控制器，并通过多模式感知和工具利用等策略扩展它们的感知和行动空间。这些基于 LLM 的代理可以通过诸如连锁思维（Chain-of-thought, CoT）和问题分解等技术展示与符号型代理相当的推理和规划能力。它们还可以通过从反馈中学习并执行新操作来获得与环境互动的能力，就像反应式代理一样。类似地，大型语言模型在大规模语料库上进行预训练，并显示出对少量样本和零样本泛化的容量，从而可以在不需要更新参数的情况下无缝地在任务之间转移。基于 LLM 的代理已被应用于各种现实世界场景，例如软件开发[108; 109] 和科学研究[110]。由于它们具有自然语言理解和生成能力，因此可以无缝地相互交互，从而导致多个代理之间的协作和竞争[108; 109; 111; 112]。此外，研究表明允许多个代理共存可能导致社会现象的出现[22]。

2.3 为什么语言模型适合作为代理的大脑的主要组成部分？

如前所述，研究人员已经引入了几个属性来帮助描述和定义人工智能领域的代理。在这里，我们将深入研究一些关键特性，阐明它们与 LLM 的相关性，并由此阐述为什么 LLM 是非常适合用作人工智能代理的大脑的主要部分的原因。

自主性。自主性是指代理在没有人类或其他人的直接干预的情况下操作，并对其行为和内部状态具有一定程度的控制[4；113]。这意味着代理不仅应该具备完成任务的明确人类指令的能力，还应该能够独立启动和执行动作。语言模型可以通过生成类人文本、参与对话以及在不需要详细逐步说明的情况下执行各种任务来展示一种形式的自主性[114；115]。此外，它们还可以根据环境输入动态调整输出，反映出一定程度的自适应自主性[23；27；104]。此外，它们还可以通过展示创造力，如提出新想法、故事或解决方案，从而展示出自主性，这些想法、故事或解决方案并未被明确编程到其中[116；117]。这意味着一定水平的自我探索和决策能力。像Auto-GPT这样的应用程序[114]展示了语言模型在构建自主代理方面的巨大潜力。只需为他们提供一个任务和一套可用工具，他们就可以自主制定计划并实现目标。

反应性。代理的反应性是指它对周围环境中的即时变化和刺激做出快速响应的能力。[9]这意味着代理能够感知其周围环境的变化，并迅速采取适当的行动。传统上，语言模型的感知空间被局限于文本输入，而行为空间则仅限于文本输出。然而，研究人员已经展示了使用多模态融合技术扩展LLM的感知空间的潜力，使它们能够从环境中快速处理视觉和听觉信息。[25][118][119]类似地，也可以通过身体化技术和工具使用来扩展LLM的行为空间。[120][121]这些进展使LLM能够有效地与现实世界物理环境互动并在此环境中执行任务。一个主要挑战是基于LLM的代理在执行非文本行为时需要一个中间步骤：以文本形式生成思想或制定工具使用方法，然后再将其转化为具体动作。这个中介过程消耗时间并降低了响应速度。然而，这与人类的行为模式密切相关，在这种模式中观察到"先思考后行动"的原则。[122][123]

主动性。主动性表示代理人不仅仅是对环境做出反应；他们有能力通过主动采取行动来展示目标导向的行为[9]。这一属性强调了代理可以推理、制定计划并采取主动措施以实现特定目标或适应环境变化。尽管直观上，基于语言模型的下一个标记预测范式可能不具有意图或欲望，但研究表明它们可以隐式地生成这些状态的表示，并引导模型的推断过程[46, 48, 49]。语言模型已经显示出很强的一般化推理和规划能力。通过提示大型语言模型"让我们一步一步思考"，我们可以激发它们的推理能力，如逻辑和数学推理[95, 96, 97]。同样，大型语言模型也显示出了规划的新兴能力，包括目标重述[99,124]、任务分解[98,125]以及根据环境变化调整计划[100,126]。

社交能力。社交能力是指代理与他人互动的能力，包括人类通过某种代理通信语言进行交流的能力。[8]大型语言模型表现出强大的自然语言交互能力，如理解和生成。[23][127][128]与结构化语言或其他通信协议相比，这种能力使它们能够以可解释的方式与其他模型或人类进行交互。这为基于LLM的代理的社交能力奠定了基础。[22][108]许多研究人员已经证明了基于LLM的代理人可以通过协作和竞争等社会行为来提高任务表现[108，111，129，130]。通过输入特定提示， LLMs也可以扮演不同的角色，从而模拟现实世界中的社会分工[109]。此外，当我们把具有不同身份的多个代理放入一个社会中时，可以观察到涌现的社会现象[22]。

3. 一个代理的诞生：基于 LLM 的代理构建

图2：基于 LLM 的代理的概念框架，由三个组件组成：大脑、感知和行动。作为控制器，大脑模块负责诸如记忆、思考和决策等基本任务。感知模块感知并处理来自外部环境的多模态信息，而行动模块使用工具执行操作并对周围环境产生影响。这里我们举一个例子来说明工作流程：当一个人询问是否会下雨时，感知模块会将指令转换为 LLM 可以理解的表示形式。然后，大脑模块开始根据当前天气和互联网上的天气报告进行推理。最后，行动模块响应并递给这个人雨伞。通过重复上述过程，代理可以不断获得反馈并与环境互动。

《适者生存》[131] 表明，如果一个个体要在外部环境中生存，它必须有效地适应环境。这要求它具有认知能力，能够感知并对外部世界的变化做出反应，这与第 2.1 节中提到的"代理"的定义是一致的。受此启发，我们提出了一个基于语言模型 (LLM) 的通用概念框架，该框架由三个关键部分组成：大脑、感知和行动（见图 2）。首先，我们描述了大脑的结构和工作原理，它主要由一个大型语言模型（§ 3.1）组成。大脑是人工智能代理的核心，因为它不仅存储知识和记忆，还承担诸如信息处理和决策等必不可少的功能。它可以展示推理和规划过程，并且能够很好地应对看不见的任务，表现出代理的智能。接下来，我们介绍了感知模块（§ 3.2）。其核心目标是从仅限文本域扩展到包括文本、音频和视觉模态的多模式领域，以扩大代理的感知空间。这种扩展使代理能够更有效地从周围环境中获取和利用信息。最后，我们展示了旨在扩展代理动作空间的动作模块（§ 3.3）。具体来说，我们赋予代理化身行为能力和工具操作技能，使其能够熟练地适应环境变化、提供反馈，甚至影响和塑造环境。

该框架可以根据不同的应用场景进行定制，也就是说，并不是所有具体组件都会在所有研究中使用。一般来说，代理的操作流程如下：首先，感知

模块，对应于人类感官系统如眼睛和耳朵，感知外部环境的变化，然后将多模式信息转换为可理解的表示形式。随后，作为控制中心的大脑模块参与诸如思考、决策和包括记忆和知识在内的存储操作的信息处理活动。最后，对应于人体四肢的动作模块在工具的帮助下执行动作，并对周围环境产生影响。通过重复上述过程，代理人可以不断获得反馈并与环境互动。

3.1 脑部

人脑是一种复杂的结构，由大量互连的神经元组成，能够处理各种信息、产生多样化的思想、控制不同的行为甚至创造艺术和文化。[199] 正如人类一样，大脑充当着人工智能代理的中央核心，主要由大型语言模型构成。

运行机制。为了确保有效的沟通，自然语言交互的能力（§3.1.1）至关重要。在接收到感知模块处理后的信息后，大脑模块首先转向存储，从知识中检索（§3.1.2），并从记忆中回溯（§3.1.3）。这些结果有助于代理人制定计划、推理和做出明智的决策（§3.1.4）。此外，大脑模块还可以以摘要、向量或其他数据结构的形式记住代理人的过去观察、想法和行动。同时，它也可以更新常识和领域知识等知识，以便将来使用。基于 LLM 的代理还可以利用其固有的泛化和迁移能力适应不熟悉的场景（§3.1.5）。在接下来的部分中，我们将深入探讨图 3 中描述的大脑模块的这些非凡方面。

3.1.1 自然语言交互

作为交流媒介，语言包含丰富的信息。除了直观表达的内容外，还可能隐藏着说话者的信仰、欲望和意图。[200] 靠强大的自然语言理解和生成能力，LLMs 能让代理在多种语言中熟练进行不仅基本互动对话[204][205][206]，还能表现出深度理解能力，使人类能够轻松地与代理进行交互。[207][208] 此外，使用自然语言进行通信的基于 LLM 的代理可以赢得更多信任，并更有效地与人类合作。[130]

多轮交互对话。多轮对话能力是有效且连贯沟通的基础。作为大脑模块的核心，诸如GPT系列[40；41；201]、LLaMA系列[201；209]和T5系列[107；210]等语言模型可以理解自然语言并生成连贯且上下文相关的响应，帮助代理人更好地理解和处理各种问题[211]。然而，即使是人类也很难在一次会话中不混淆地进行交流，因此需要多轮对话。与传统的文本阅读理解任务（如SQuAD）[212]相比，多轮对话(1)具有交互性，涉及多个演讲者，并且缺乏连续性；(2)可能涉及多个主题，对话信息也可能冗余，使文本结构更复杂[147]。总的来说，多轮对话主要分为三个步骤：(1)理解自然语言对话的历史；(2)决定采取什么行动；(3)生成自然语言响应。基于语言模型的代理有能力使用现有信息对输出进行持续优化，以进行多轮对话，并有效地实现最终目标[132；147]。

高质量的自然语言生成。最近的 LLM 展示了出色的自然语言生成能力，能够始终如一地在多种语言中产生高质量的文本[132；213]。LLM 生成的内容的一致性[214] 和语法准确性[133] 已经显示出稳定的提高，从 GPT-3[41] 演化到 InstructGPT[24]，并以 GPT-4[25] 为高潮。See 等人[214] 实证表明这些语言模型可以"适应条件文本着色风格和内容"[215]。方等人[133] 的结果表明 ChatGPT 在语法错误检测方面表现出色，强调其强大的语言功能。在对话上下文中，LLM 在对话质量的关键指标（包括内容、相关性和适当性）上也表现良好[127]。重要的是，它们不仅复制训练数据，而且显示出一定程度的创造力，产生与人类精心制作的标准一样新颖甚至更新颖的各种文本[216]。与此同时，通过使用可控提示，人类监督仍然有效，确保对这些语言模型生成的内容具有精确的控制权[134]。

意图理解和隐含意义理解。虽然在大规模语料库上训练出来的模型已经足够聪明，可以理解指令，但大多数仍然无法模仿人类对话或充分利用语言中传达的信息[217]。理解隐含的意义对于与其它智能体的有效沟通和合作至关重要[135]，

它使人们能够理解他人的反馈。语言模型的出现凸显了基础模型理解人类意图的潜力，但在涉及模糊指令或其他含义时，这对代理来说是一个重大挑战。[94][136]对人类来说，从对话中推断出隐含的意思是很自然的，但对于代理来说，他们应该将隐含的意思形式化为奖励函数，这样当在看不见的情境中时，它们可以选择与说话者偏好一致的选项。[128]奖励建模的主要方法之一是根据反馈推断奖励，这主要以比较的形式呈现（可能附带原因）。[218]另一种方法是从描述中恢复奖励，使用动作空间作为桥梁。[128]Jeon等人。[221]表明，人类行为可以映射到从隐式选项集中选择一个，这有助于用单一统一的形式解释所有信息。通过利用他们对上下文的理解，代理可以采取高度个性化和准确的动作，针对特定的要求量身定制。

3.1.2 知识

由于现实世界的多样性，许多自然语言处理研究人员试图利用更大规模的数据。这些数据通常是无结构且未标记的[137][138]，但它们包含着语言模型可以学习的巨大知识。从理论上讲，语言模型可以拥有更多的参数来学习更多的知识[139]，并且理论上，语言模型可以学习并理解自然语言中的所有内容。研究表明，在大规模数据集上训练的语言模型可以将其参数编码为各种各样的知识，并对不同类型的查询做出正确的响应。此外，这些知识可以帮助基于 LLM 的代理做出明智的决策[222]。所有这些知识都可以大致分为以下几类：

• 语言知识。语言知识 [142; 143; 144] 被表示为一组约束，即定义了该语言的所有可能句子的语法规则。它包括形态学、句法学、语义学[145; 146] 和语用学。只有获得语言知识的主体才能理解句子并进行多轮对话[147]。此外，这些代理还可以通过在包含多种语言的数据集上训练来学习多语言知识[132]，从而无需额外的翻译模型。

• 常识知识。常识知识是指通常在儿童时期就教授给大多数人的世界通用事实。例如，人们普遍知道药物用于治病，雨伞用于防雨。这种信息通常不会明确地出现在上下文中。因此，缺乏相应常识知识的模型可能无法理解或误解意图[141]。类似地，没有常识知识的代理可能会做出错误的决定，比如在下大雨时不带雨伞。

• 专业领域的知识。专业领域的知识是指与特定领域相关的知识，如编程、数学、医学等。模型有效地解决特定领域的问题至关重要。例如，执行编程任务的模型需要具备编程知识，比如代码格式。同样地，用于诊断目的的模型应该具有医学知识，比如特定疾病的名称和处方药。

虽然语言模型在获取、存储和利用知识方面表现出色，但仍然存在潜在的问题和未解决的问题。例如，在训练过程中，模型获得的知识可能会过时，甚至从一开始就可能是错误的。一个简单的解决方案是重新训练。然而，这需要先进的数据、大量的时间和计算资源。更糟糕的是，它可能导致灾难性遗忘。因此，一些研究人员尝试编辑语言模型，以定位并修改模型中存储的具体知识。这包括卸载错误的知识，同时获取新的知识。他们的实验表明，这种方法可以部分地编辑事实知识，但它背后的机制仍需进一步研究。此外，语言模型可能生成与源或事实信息相矛盾的内容，这种现象通常被称为幻觉。这是语言模型不能广泛用于严谨事实任务的重要原因。为了解决这个问题，一些研究人员提出了一个指标来衡量幻觉的程度，并为开发人员提供了一个有效的方法来评估语言模型输出的可信度。此外，一些研究人员使语言模型能够使用外部工具来避免错误。知识。这两种方法都可以减轻幻觉的影响，但还需要进一步探索更有效的方法。

3.1.3 内存

在我们的框架中，"记忆"存储代理过去观察、想法和行动的序列，这与Nuxoll等人提出的定义相似。[228] 正如人类大脑依赖于记忆系统来回顾性地利用先前的经验进行策略制定和决策一样，代理需要特定的记忆机制来确保其高效处理一系列连续的任务。[229][230][231] 当面临复杂的问题时，记忆机制帮助代理有效地重新访问和应用先前的策略。此外，这些记忆机制使个体能够通过借鉴过去的经历来适应陌生的环境。

随着基于 LLM 的代理交互周期的扩展，出现了两个主要挑战。第一个问题是历史记录本身的长度。基于 LLM 的代理以自然语言格式处理先前的交互，并将历史记录附加到每个后续输入中。随着这些记录的增长，它们可能会超出大多数基于 LLM 的代理所依赖的变压器架构的限制。当这种情况发生时，系统可能会截断一些内容。第二个挑战是从相关记忆中提取相关信息的困难。随着代理积累了大量的历史观察结果和行动序列，他们正在努力应对不断增长的记忆负担。这使得在相关主题之间建立联系越来越具有挑战性，可能导致代理对当前上下文做出不准确的响应。

提高记忆能力的方法。在这里，我们介绍了几种增强基于 LLM 的代理内存的方法。

• 增加 Transformer 的长度限制。第一种方法试图解决或缓解固有序列长度约束。由于这些内在局限性，Transformer 架构在处理长序列时遇到困难。随着序列长度的增加，自注意力机制中的对角标记计算会导致计算需求呈指数级增长。减少这些长度限制的方法包括文本截断[163; 164; 232]、输入分段[233; 234] 和强调文本的关键部分[235; 236; 237]。其他一些工作修改了注意机制以降低复杂性，从而适应更长的序列[238; 165; 166; 167]。

• 总结记忆。提高记忆效率的第二种策略依赖于记忆总结的概念。这确保了代理能够毫不费力地从历史互动中提取关键细节。已经提出了各种技术来总结记忆。使用提示，一些方法可以简洁地整合记忆[168]，而其他方法强调反思过程以创建紧凑的记忆表示[22, 239]。层次化的方法将对话流线型化为日常快照和总体摘要[170]。值得注意的是，具体策略将环境反馈转换为文本封装，增强了代理对将来交互的情境理解[169]。此外，在多智能体环境中，捕获并保留代理通信的关键元素[171]。

• 使用向量或数据结构压缩内存。通过使用适当的数据结构，智能代理可以提高对交互的记忆检索效率，从而促进及时响应。值得注意的是，一些方法依赖于嵌入向量来表示存储部分、计划或对话历史记录[109,170,172,174]。另一种方法将句子转换为三元组配置[173]，而其他方法则将记忆视为独特的数据对象，以促进各种交互[176]。此外，ChatDB [175] 和 DB-GPT [240] 将 LLMroller 集成到 SQL 数据库中，使您可以使用 SQL 命令操作数据。

记忆检索的方法。当代理与其环境或用户交互时，至关重要的是从其内存中检索出最相关的内容。这确保了代理访问相关信息以执行特定操作。这就产生了一个重要问题：代理如何选择最合适的记忆？通常，代理会自动检索记忆[170; 174]。自动检索的一个显着方法考虑三个指标：新鲜度、相关性和重要性。记忆分数被确定为这三个指标加权组合的结果，并且模型上下文中的优先级最高[22]。一些研究介绍了交互式记忆对象的概念，它是对话历史的表示形式，可以通过总结来移动、编辑、删除或合并。用户可以查看和操作这些对象，从而影响代理对对话的理解。[176]同样，其他研究允许基于用户提供的特定命令进行删除等内存操作。[175]这样的方法确保了存储的内容与用户的期望高度一致。

3.1.4 推理与规划

推理。基于证据和逻辑的推理对于人类的认知努力至关重要，是解决问题、决策和批判性分析的基础[241；242；243]。演绎法、归纳法和类比法是认知努力中通常认可的主要推理形式[244]。对基于语言模型的代理来说，像人类一样，推理能力对于解决复杂任务至关重要[25]。

关于大型语言模型的推理能力，存在不同的学术观点。一些人认为在预训练或微调过程中，语言模型就具备了推理能力[244]，而另一些人则认为推理能力是在达到一定规模后才出现的[26, 245]。具体而言，代表性思想链 (Chain-of-Thought, CoT) 方法[95, 96] 已经被证明可以通过引导 LLM 在输出答案之前生成理由来激发大型语言模型的推理能力。还有其他策略也被提出用于提高 LLM 的性能，例如自相一致[97]、自我润色[99]、自我精炼[178] 和选择推断[177] 等等。一些研究表明，逐步推理的有效性可以归因于训练数据的局部统计结构，局部变量之间的结构化依赖关系比对所有变量进行训练具有更高的数据效率[246]。

规划。规划是人类面对复杂挑战时采用的关键策略。对人类来说，规划有助于组织思想、设定目标，并确定实现这些目标的步骤。[247][248][249] 就像人类一样，规划能力对代理也至关重要，而这一规划模块的核心在于推理能力。[250][251][252] 这为基于 LLM 的代理提供了一个有结构的思想过程。通过推理，代理将复杂的任务分解为更易管理的子任务，并为每个子任务制定适当的计划。此外，随着任务的进行，代理可以使用内省来修改其计划，确保它们更好地与现实世界的情况相一致，从而导致适应性和成功的任务执行。

通常，规划包括两个阶段：计划制定和计划反思。

• 计划制定。在计划制定过程中，代理通常会将一个总体任务分解为许多子任务，并且在这个阶段提出了各种方法。值得注意的是，一些工作主张基于 LLM 的代理一次性全面分解问题，一次性制定完整的计划，然后按顺序执行[98；179；255；256]。相比之下，其他像 CoT 系列这样的研究采用了自适应策略，在每次处理一个子任务时进行规划和解决，从而能够更流畅地处理复杂的任务[95；96；257]。此外，一些方法强调分层规划[182；185]，而其他人则强调一种从以树状结构组织的推理步骤推导出最终计划的策略。后一种方法认为代理应该在最终确定计划之前评估所有可能的路径[97；181；184；258；184]。虽然基于 LLM 的代理展示了广泛的常识知识，但当面临需要专业知识的任务时，它们可能会遇到挑战。通过将这些代理与特定领域的规划器相结合，已经证明可以提高性能[125；130；186；259。

• 计划反思。在制定计划时，反思并评估其优点至关重要。基于 LLM 的代理利用内部反馈机制，通常从现有模型中获取见解，以磨练和改进他们的策略和规划方法[169；178；188；192]。为了更好地与人类价值观和偏好保持一致，代理积极地与人类互动，让人类纠正一些误解，并将这种定制的反馈纳入到他们的规划方法中[108；189；190]。此外，他们还可以从实体或虚拟环境中获得反馈，例如任务完成的线索或后操作观察，帮助他们修订和细化计划[91；101；187；191；260]。

3.1.5 可迁移性和泛化性

智能不应局限于特定领域或任务，而应涵盖广泛的认知技能和能力。[31]人类大脑的显著特征在很大程度上归功于其高度可塑性和适应性。它可以根据外部刺激和内部需求不断调整自己的结构和功能，从而适应不同的环境和任务。近年来，大量研究表明，在大规模语料库上预训练的模型可以学习通用的语言表示。[36][261][262]利用预训练模型的力量，加上少量数据进行微调，语言模型可以表现出色下游任务。[263]无需从头开始训练新模型，节省了大量的计算资源。然而，通过这种针对特定任务的微调，模型缺乏泛化能力和难以推广到其他任务。基于语言模型的代理不仅充当静态知识存储库，还具有动态学习能力，使其能够快速、稳健地适应新任务。[24][105][106]

未见过任务的一般化。研究表明，指令微调语言模型不需要针对特定任务进行额外训练就可实现零样本一般化[24, 25, 105, 106, 107]。随着模型大小和语料库大小的增加，语言模型在陌生的任务中展现出显著的新兴能力[132]。具体而言，语言模型可以通过基于自身理解遵循指令来完成他们在训练阶段从未遇到的新任务。一种实现方式是多任务学习，例如FLAN[105] 在一系列通过指令描述的任务上对语言模型进行了微调，T0[106] 引入了一个统一的框架，可以将每个语言问题转换为文本到文本格式。尽管GPT-4[25] 是一个纯粹的语言模型，但它在各种领域和任务中都展示了显著的能力，包括抽象、理解、视觉、编码、数学、医学、法律、理解人类动机和情绪等[31]。需要注意的是，提示的选择对于适当的预测至关重要，直接在提示上进行训练可以提高模型对未见过的任务的一般化能力[264]。有希望的是，这种泛化能力可以通过扩大模型规模以及训练指令的数量或多样性进一步增强[94, 265]。

上下文学习。大量研究表明，语言模型 (LLMs) 可以通过上下文学习（ICL）执行各种复杂的任务，其中指代模型能够从语境中的一些示例中学习[195]。基于很少示例的上下文学习通过将原始输入与几个完整的示例连接起来作为提示来增强语言模型的预测性能，从而丰富了语境[41]。ICL 的关键思想是从类比中学习，这类似于人类的学习过程[266]。此外，由于提示使用自然语言编写，因此交互可以被解释和改变，从而使更容易将人类知识纳入到 LLM 中[95; 267]。与监督学习过程不同，ICL 不涉及微调或参数更新，这大大降低了为使模型适应新任务而进行计算的成本。除了文本之外，研究人员还探索了不同多模态任务中的潜在 ICL 能力[193; 194; 268; 269; 270; 271]，使得代理可以应用于大规模真实世界任务。

持续学习。最近的研究强调了语言模型规划能力促进代理连续学习的潜力，这包括技能的连续获取和更新。在连续学习中的一个核心挑战是灾难性遗忘：当模型学习新任务时，它往往会忘记之前任务的知识。已经有很多针对上述挑战的努力，这些努力大致可以分为三类，参考之前的模型引入常用术语[274；275；276；277]近似先前数据分布[278；279；280]设计具有任务自适应参数的架构[281；198]。基于语言模型的代理已经成为一种新的范式，利用语言模型的规划能力来结合现有技能并解决更复杂的挑战。Voyager[190]试图通过GPT-4[25]自动课程中提出的逐步困难的任务来解决问题。通过从简单的程序中合成复杂的技能，该代理不仅快速提高了自己的能力，还有效地抵消了灾难性遗忘。

3.2 感知

人类和动物都依赖于眼睛和耳朵等感觉器官从周围环境中获取信息。这些感知输入被转换为神经信号并发送到大脑进行处理，[299; 300]，使我们能够感知和与世界互动。同样地，基于 LLM 的代理需要从各种来源和模态接收信息至关重要。这种扩展的感觉空间有助于代理更好地理解其环境、做出明智的决策，并在更广泛的任务中表现出色，使其成为一项关键的发展方向。代理通过感知模块将其处理的信息传递给大脑模块进行处理。

在这一部分，我们介绍了如何使基于语言模型的代理获得多模态感知能力，包括文本（第 3.2.1 节）、视觉（第 3.2.2 节）和听觉输入（第 3.2.3 节）。我们还考虑了其他潜在的输入形式（第 3.2.4 节），如触觉反馈、手势和三维地图，以丰富代理的感知域并增强其多功能性。3）。基于语言模型的代理感知的类型图如图 4 所示。

毫无疑问，听觉信息是世界信息的重要组成部分。当一个代理拥有听觉能力时，它可以提高对交互式内容、周围环境甚至潜在危险的认识。事实上，有许多经过充分验证的模型和方法处理音频作为独立模态[293; 316; 317]。然而，这些模型往往擅长特定的任务。鉴于 LLM 的出色工具使用能力（将在§3.3中详细讨论），一个非常直观的想法是，代理人可以将 LLM 用作控制中心，以级联方式调用现有工具集或模型存储库来感知音频信息。例如，AudioGPT[293]充分利用了FastSpeech[317]、GenerSpeech[316]、Whisper[316]等模型的能力，以及其他[318; 319; 320; 321; 322]在诸如文本转语音、风格转换和语音识别等任务中取得了优异成绩。

大型语言模型代理的崛起与潜力：综述

摘要

1. 简介

"如果他们发现一只鹦鹉能够回答所有问题，我会毫不犹豫地宣称它是一种智能生物。"

------狄德罗，1759年

代理的概念起源于哲学，其根源可以追溯到亚里士多德和休谟等思想家。[5] 它描述了具有欲望、信念、意图以及采取行动能力的实体。[5] 这个想法过渡到了计算机科学领域，旨在使计算机能够理解用户的兴趣，并代表他们自主地执行操作。[6；7；8] 随着人工智能的发展，"代理人"的术语在人工智能研究中找到了自己的位置，用于描述展示智能行为并具备自主性、反应性、主动性和社会能力等特质的实体。[4；9] 自那时以来，代理人的探索和技术进步已成为人工智能社区的重点关注点。[1；10] 现在认为人工智能代理是实现人工通用智能（AGI）的关键一步，因为它们包含了广泛智能活动的潜力。[4；11；12]

自二十世纪中叶以来，随着研究深入到智能代理的设计和实现，显著取得了进展[13；14；15；16；17；18]。然而，这些努力主要集中在增强特定能力，如符号推理，或掌握特定任务，如围棋或国际象棋[19；20；21]。在各种情况下实现广泛适应性仍然遥不可及。此外，以往的研究更多地强调算法设计和训练策略，而忽视了模型固有的通用能力的发展，例如知识记忆、长期规划、有效泛化和高效交互[22；23]。事实上，提高模型的固有能力是进一步推进代理的关键因素，该领域需要一个强大的基础模型，具备上述多种关键属性，作为代理系统的基础。

大语言模型 (LLMs) 的发展为代理 [24; 25; 26] 的进一步发展带来了希望，社区已经取得了重大进展[22; 27; 28; 29]。根据涵盖五个层次的概念，即描述从自然语言处理到通用人工智能（例如语料库、互联网、感知、体现和社会）研究进度的世界范围（WS），纯LLMs 建立在第二层，具有互联网规模的文本文本输入输出。尽管如此，LLMs 在知识获取、指令理解、泛化、规划和推理方面显示出强大的能力，同时能够有效地与人类进行自然语言交互。这些优势使 LLMs 被称为AGI 的火花[31]，使其成为构建智能代理的理想选择，以实现人与代理和谐共处的世界[22]。以此为基础，如果我们将 LLMS 提升到代理人地位，并为其提供扩展的感知空间和行动空间，它们有可能达到WS的第三和第四级。此外，基于LLM的代理可以通过合作或竞争来解决更复杂的问题，当他们放在一起时可以观察到涌现的社会现象，可能实现第五个WS级别。如图1所示，我们设想一个由AI代理组成的和谐社会，其中人类也可以参与。

背景

2.1 AI代理的起源

2.2 智能体研究中的技术趋势

AI 代理的演化经历了几个阶段，这里我们从技术趋势的角度来简要回顾其发展。

2.3 为什么语言模型适合作为代理的大脑的主要组成部分？

3. 一个代理的诞生：基于 LLM 的代理构建

该框架可以根据不同的应用场景进行定制，也就是说，并不是所有具体组件都会在所有研究中使用。一般来说，代理的操作流程如下：首先，感知

3.1 脑部

3.1.1 自然语言交互

3.1.2 知识

3.1.3 内存

提高记忆能力的方法。在这里，我们介绍了几种增强基于 LLM 的代理内存的方法。

3.1.4 推理与规划

通常，规划包括两个阶段：计划制定和计划反思。

3.1.5 可迁移性和泛化性

3.2 感知

3.2.1 文本输入

文本是一种携带数据、信息和知识的方式，使文本通信成为人类与世界互动最重要的方式之一。基于语言模型的代理已经具备了通过文本文本输入和输出与人类进行基本交流的能力[114]。在用户的文本输入中，除了显式的内容外，还隐藏着信仰、欲望和意图。理解隐含意义对于代理理解用户潜在的潜在含义至关重要，从而提高其与用户的沟通效率和质量。然而，正如第 3.1.1 节所述，目前基于语言模型的代理仍然很难理解文本输入中的隐含意义。例如，一些工作[128；218；219；220]使用强化学习来感知隐含意义并根据反馈推断奖励。这有助于推断说话者的偏好，并导致代理做出更个性化和准确的响应。此外，由于代理旨在用于复杂的现实世界情况，因此它将不可避免地遇到许多全新的任务。对未知任务的文本说明的理解对代理的文本感知能力提出了更高的要求。如§3.1.5所述，经过指令微调的语言模型可以显示出显著的零样本指令理解和泛化能力，无需针对特定任务进行额外的微调。

3.2.2 视觉输入

尽管语言模型在语言理解方面表现出色[25; 301]，并且能够进行多轮对话[302]，但它们本质上缺乏视觉感知能力，只能理解离散的文本内容。视觉输入通常包含有关世界的丰富信息，包括对象的属性、空间关系、场景布局等。因此，将来自其他模态的数据与视觉信息相结合，可以为代理提供更广泛的上下文，并使其对环境的理解更加准确[120]，从而加深代理对环境的感知。

为了帮助代理理解图像中包含的信息，一种直接的方法是对输入图像生成相应的文本描述，这被称为图像字幕。[303；304；305；306；307] 标题可以直接链接到标准文本指令，并馈入代理。这种方法高度可解释且不需要为标题生成进行额外训练，从而节省了大量计算资源。然而，标题可能缺乏语义准确性，因为它们通常由人工创建，而且大多数都是短语而不是完整的句子。此外，与输入图像相关联的标题数量有限，因此可能无法充分捕捉所有重要的视觉元素。

生成是一种低带宽方法，[120; 308]，在转换过程中可能会丢失大量潜在信息。此外，代理人对图像的关注可能会引入偏见。

受变压器在自然语言处理中的出色表现[309] 的启发，研究人员将其扩展到计算机视觉领域。ViT / VQ-VAE 等代表性作品[282；283；284；285；310] 已成功使用变压器对视觉信息进行编码。研究人员首先将图像划分为固定大小的补丁，然后将这些经过线性投影的补片作为输入令牌馈送给变压器[292]。最后，通过计算令牌之间的自注意，它们能够整合整个图像的信息，从而产生一种有效感知视觉内容的方法。因此，一些工作[311] 尝试直接将图像编码器与 LLM 结合，在端到端的方式下训练整个模型。虽然该代理可以实现显著的视觉感知能力，但它需要大量的计算资源。

广泛预先训练好的视觉编码器和 LLM 可以极大地增强代理的视觉感知和语言表达能力。 [286; 312] 在训练过程中冻结它们中的一个或两个可以实现资源和模型性能之间的权衡，这是一种被广泛采用的方法。[287] 然而，LLM 不能直接理解视觉编码器的输出，因此有必要将图像编码转换为 LLM 能够理解的嵌入。换句话说，这就要求在视觉编码器和 LLM 之间添加一个额外的可学习接口层。例如，BLIP-2[287] 和 InstructBLIP[288] 使用 Querying Transformer (Q-Former) 模块作为视觉编码器和 LLM 之间的中间层。[288] Q-Former 是一种使用可学习查询向量的变压器，[289] 这使其能够提取具有语言信息的视觉表示。它可以为 LLM 提供最有价值的信息，降低代理学习视觉语言对齐的负担，并缓解灾难性遗忘问题。与此同时，一些研究人员通过使用单个投影层来实现视觉文本对齐，从而采用了一种计算效率更高的方法，减少了需要训练的额外参数。[118; 291; 312]此外，投影层还可以有效地与可学习的接口集成，以适应其输出的维度，使其与 LLM 兼容。[296; 297; 313; 314]

视频输入由一系列连续的图像帧组成。因此，代理感知图像的方法[287]可能适用于视频领域，使代理能够对视频输入有良好的感知。与图像信息相比，视频信息增加了时间维度。因此，代理理解不同时帧之间关系的能力对于感知视频信息至关重要。Flamingo 等一些工作[290; 315] 使用掩码机制来确保在理解视频时保持时间顺序。掩码机制限制了代理的视野，使其在感知视频中的特定帧时只能访问早期发生的帧的视觉信息。

3.2.3 听觉输入

音频光谱图直观地表示了随时间变化的音频信号的频谱[323]。对于一段时间内的音频数据段，它可以被抽象为一个有限长度的音频光谱图。音频光谱图具有二维表示，可以可视化为一张平铺图像。因此，一些研究[294；295]试图将视觉领域的感知方法迁移到音频领域。AST（Audio Spectrogram Transformer）[294]使用与ViT类似的架构处理音频光谱图图像。通过将音频光谱图分割为补丁，它能够有效地编码音频信息。此外，一些研究人员[296；297]从冻结编码器的想法中获得了灵感，以减少训练时间和计算成本。通过添加相同的学习接口层，它们使音频编码与来自其他模态的数据编码对齐。

3.2.4 其他输入

如前所述，许多研究已经探索了文本、视觉和音频感知单元。然而，基于 LLM 的代理可能会配备更丰富的感知模块。在未来，它们可以像人类一样感知和理解现实世界中的多种模态。例如，代理人可能具有独特的触觉和嗅觉器官，使他们在与物体互动时能够收集更多详细信息。与此同时，代理人也可以清楚地感知周围环境的温度、湿度和亮度，从而能够采取环境意识型行动。此外，通过高效整合基本感知能力（如视觉、文本和光敏性），代理人可以为人类开发各种用户友好的感知模块。InternGPT [298] 引入指向说明。用户可以通过手势或移动光标来选择、拖动或绘制图像中难以描述的部分。指向说明的添加有助于提供对单个文本指令更精确的规格说明。在此基础上，代理有可能感知更复杂的用户输入。例如，增强现实和虚拟现实设备中的眼动追踪技术、人体动作捕捉技术以及甚至脑机交互中的脑电波信号等技术。

最后，一个类人的基于 LLM 的代理应该对更广泛的总体环境有所了解。目前，许多成熟且广泛采用的硬件设备可以帮助代理完成此操作。激光雷达可以创建三维点云地图，帮助代理检测并识别周围的物体。GPS 可以提供准确的位置坐标，并与地图数据集成。惯性测量单元 (IMU) 可以测量和记录物体的三维运动，提供有关物体速度和方向的详细信息。然而，这些感觉数据很复杂，不能直接被基于 LLM 的代理理解。探索代理如何感知更全面的输入是未来的一个有希望的方向。

3.3 行动

人类感知环境后，大脑会整合、分析和推理所接收到的信息，并做出决策。随后，他们使用神经系统来控制身体，使适应性或创造性的行为成为可能，例如进行对话、避开障碍物或生火。当一个代理具有类似人脑的知识、记忆、推理、规划和泛化能力以及多模式感知时，它也期望能像人类一样拥有多种对周围环境作出反应的动作。在构建代理的过程中，动作模块接收来自大脑模块发送的动作序列并执行动作以与环境互动。如图 5 所示，这一部分从文本输出开始（§ 3.3.1），这是基于 LLM 的代理的固有能力。接下来我们讨论基于 LLM 的代理的工具使用能力（§ 3.3.2），事实证明它可以提高他们的多功能性和专业性。最后，我们将讨论为基于 LLM 的代理提供身体动作，使其更容易接地在物理世界中（§ 3.3.3）。

3.3.1 文本输出

正如第 3.1.1 节中所讨论的，基于变压器的生成型大语言模型的兴起和发展赋予了基于 LLM 的代理内在的语言生成能力。[132][213] 它们产生的文本质量在流利性、相关性、多样性、可控性等方面都表现出色。[127][214][134][216] 因此，基于 LLM 的代理可以成为非常强大的语言生成器。

3.3.2 工具使用

工具是工具使用者能力的延伸。当面临复杂的任务时，人类会使用工具来简化问题解决并提高效率，从而节省时间和资源。同样地，如果代理人也学会使用和利用工具，那么他们可以更有效地完成复杂任务，并以更高的质量[94]。

基于 LLM 的代理在某些方面存在局限性，而工具的使用可以增强代理的功能。首先，虽然基于 LLM 的代理具有强大的知识库和专业知识，但它们不具备记住所有训练数据的能力[341; 342]。它们也可能由于上下文提示的影响而无法引导到正确的知识，甚至生成幻觉的知识[208]。再加上语料库、训练数据和针对特定领域和场景进行调整的缺乏，代理的专业能力在专门研究特定领域的过程中也受到限制[343]。专用工具使 LLM 能够提高其专业知识、适应域知识，并以插件形式更适合于域特定需求。此外，基于 LLM 的代理的决策过程缺乏透明度，使其在医疗保健和金融等高风险领域中不太值得信赖[344]。此外，LLMs 对对抗攻击敏感[345]，且对轻微输入修改的鲁棒性不足。相比之下，借助工具完成任务的代理表现出更强的可解释性和鲁棒性。工具的执行过程可以反映代理解决复杂要求的方法并增强其决策的可信度。此外，因为工具是为其各自的用例场景量身设计的，利用此类工具的代理更好地处理了轻微的输入更改并且更能抵抗对抗攻击[94]。

基于 LLM 的代理不仅需要使用工具，而且非常适合集成工具。利用预训练过程中积累的丰富世界知识和 CoT 提示，LLMs 在复杂的交互环境中表现出显著的推理和决策能力[97]，这有助于代理以适当的方式分解并解决用户指定的任务。此外，LLMs 在意图理解和其他方面显示出巨大的潜力[25；201；202；203]。当代理与工具相结合时，可以降低使用工具的门槛，从而充分释放人类用户的创造性潜力[94]。

理解工具。要有效地使用工具，代理必须全面了解工具的应用场景和调用方法。没有这种理解，代理使用工具的过程就会变得不可靠，并且无法真正提高代理的能力。利用大型语言模型的强大零样本和少样本学习能力[40； 41]，代理可以通过利用描述工具功能和参数的零样本提示或提供特定工具用例演示和相应方法的少样本提示来获取有关工具的知识[92； 326]。这些学习方法与人类通过查阅工具手册或观察他人使用工具的学习方法平行[94]。面对复杂任务时，一个工具往往不足以解决问题。因此，代理应该首先以适当的方式将复杂任务分解为子任务，而它们对工具的理解在任务分解中起着重要作用。

学习使用工具。机器人学习使用工具的方法主要包括从演示中学习和从反馈中学习。它们包括模仿人类专家的行为，理解他们行为的结果，并根据来自环境和人类的反馈进行调整[24][349][350]。环境反馈包括行动是否成功完成任务的结果反馈，以及捕获由动作引起的环境状态变化的中间反馈；人类反馈包括明确的评价和暗示的行为，例如点击链接[94]。

如果代理严格地应用工具而没有适应性，那么它不能在所有情况下实现可接受的表现。代理需要从特定上下文中学习到的工具使用技能推广到更一般的场景中，比如将基于 Yahoo 搜索训练好的模型转移到谷歌搜索上。为了实现这一点，代理必须掌握工具使用策略中的常见原则或模式，这可能通过元工具学习来实现[327]。增强代理对简单工具与复杂工具之间关系的理解，例如如何构建复杂的工具，可以提高代理推广工具使用的潜力。这使得代理能够有效地辨别各种应用场景中的细微差别，并将之前学到的知识迁移到新工具上[94]。课程学习[351]允许代理从简单的工具开始，逐步学习复杂的工具，符合要求。此外，由于理解用户意图推理和规划能力，代理可以更好地设计工具利用方法和协作方式，从而提供更高质量的结果。

为自给自足制造工具。现有的工具通常是为了方便人类而设计的，这可能并不适合代理人。为了让代理人更好地使用工具，需要专门针对代理人的工具。这些工具应该更加模块化，并且具有更适合代理人的输入输出格式。如果提供指令和演示，基于 LLM 的代理也具备通过生成可执行程序或集成现有工具来创建工具的能力[94；330；352]。它们还可以学习进行自我调试[331]。此外，如果充当工具制造商的代理成功地创建了一个工具，它不仅可以使用该工具，而且可以为多智能体系统中的其他代理创建包含工具代码和演示的软件包[329]。推测，在未来，代理可能会变得自给自足，并在工具方面表现出高度自主性。

工具可以扩展基于语言模型的代理的动作空间。在推理和规划阶段，代理通过工具可以获得外部资源的帮助，例如网络应用程序和其他语言模型[92]。这一过程为基于语言模型的代理提供了高度专业、可靠、多样和高质量的信息，有助于它们做出决策和采取行动。例如，搜索工具可以通过利用外部数据库、知识图谱和网页来提高代理访问知识的范围和质量，而领域特定的工具则可以增强代理在相应领域的专业知识[211；353]。一些研究人员已经开发出了基于语言模型的控制器，用于生成查询数据库的SQL语句，或转换用户查询以进行搜索请求，并使用搜索引擎获得所需的结果[90；175]。此外，基于语言模型的代理还可以使用科学工具执行诸如化学有机合成的任务，或者与Python解释器交互以提高其在复杂数学计算任务上的性能[354；355]。对于多智能体系统，通信工具（如电子邮件）可以用作代理之间互动的手段，在严格的隐私限制下促进协作，展示自主性和灵活性[94]。

尽管前面提到的工具增强了代理的功能，但与环境交互的方式仍然是基于文本的。然而，这些工具旨在扩展语言模型的功能，它们的输出不仅限于文本。非文本输出的工具可以丰富代理的动作模态，从而扩大基于 LLM 的代理的应用场景。例如，一个基于视觉模型的代理可以通过绘制来完成图像处理和生成[328]。在航空航天工程中，正在探索使用代理来建模物理并求解复杂的微分方程[356]；在机器人领域，需要代理来规划物理操作并控制机器人执行[179]等。能够通过工具或以多模式方式与环境或世界进行动态交互的代理可称为数字化体现[94]。代理的体现一直是体现学习研究的核心关注点。我们将在第 3.3.3 节对代理的体现行动进行深入讨论。

3.3.3 身体行为

在追求人工通用智能 (AGI) 的过程中，具身智能体被认为是关键范式，因为它努力将模型智能与物理世界相结合。具身假说 [357] 受到人类智力发展过程的启发，认为代理人的智慧源于与环境的持续互动和反馈，而不是仅仅依赖于精心策划的教科书。同样地，不同于传统的深度学习模型从互联网数据集中学习显式能力来解决领域问题，人们预期基于语言模型的代理行为不再局限于纯文本输出或调用精确工具来执行

在特定领域任务[358]中，他们应该能够主动感知、理解并交互物理环境，做出决策，并根据 LLM 的广泛内部知识生成具体行为以修改环境。我们统称为身体行为，它使代理能够以与人类行为非常相似的方式与世界互动和理解。

基于 LLM 的代理执行实体行动的潜力。在 LLM 被广泛使用之前，研究人员倾向于使用强化学习等方法来探索代理的实体行为。尽管基于 RL 的表现取得了巨大的成功[359；360；361]，但它确实具有一些方面的局限性。简而言之，由于难以对动态且常常模糊的真实环境进行建模，或者它们严重依赖于精确的奖励信号表示[362]，因此 RL 算法在数据效率、泛化能力和复杂问题推理方面面临挑战。最近的研究表明，利用预训练期间从 LLM 中获得的丰富内部知识可以有效地缓解这些问题[120；187；258；363]。

• 成本效率。一些在策略上的算法很难获得样本效率，因为它们需要新鲜的数据来更新策略，而收集足够的嵌入式数据以进行高性能训练既昂贵又嘈杂。这种约束也存在于一些端到端模型中。通过利用来自 LLM 的内在知识，像 PaLM-E [120] 这样的代理会联合训练机器人数据与通用视觉语言数据，从而在嵌入式任务中实现显著的迁移能力，并展示几何输入表示可以提高训练数据效率。

• 身体动作泛化。如§3.1.5所述，代理的能力应该超出特定任务。当面对错综复杂的未知真实世界环境时，代理人必须表现出动态学习和泛化能力。然而，大多数强化学习算法都是为训练和评估特定任务的相关技能而设计的[101；367；368；369]。相比之下，通过多样化形式和丰富任务类型进行微调的 LLM 展示了显著的任务间泛化能力[370；371]。例如，PaLM-E 对新物体或现有物体的新奇组合表现出令人惊讶的零样本或单样本泛化能力[120]。此外，语言熟练程度代表了基于 LLM 的代理的独特优势，它既可以作为与环境交互的一种手段，也可以作为将基础技能转移到新任务的媒介[372]。SayCan[179]使用 LLM 将提示中呈现的任务说明分解为相应的技能命令，但在部分可观测环境中，有限的先前技能通常无法实现令人满意的表现[101]。为此，Voyager[190]引入了技能库组件来持续收集新的自我验证的技能，这使得代理具有终身学习能力。

• 身体动作规划。规划是对复杂问题的人类响应以及基于语言模型的代理的至关重要的策略。在 LLM 展现出显著的推理能力之前，研究人员引入了层次强化学习 (HRL) 方法，其中高级策略为低级策略提供子目标，而低级策略产生适当的行动信号[373；374；375]。与高级策略的作用类似，具有新兴推理能力的语言模型[26]可以无缝地应用于零样本或少量样本的复杂任务[95；97；98；99]。此外，来自环境的外部反馈还可以进一步提高基于语言模型的代理的规划性能。根据当前的环境反馈，一些工作[101；91；100；376]动态生成、维护和调整高级行动计划，以最小化对部分可观测环境中先前知识的依赖，从而实现计划的落地。反馈也可以来自模型或人类，通常称为评论员，他们根据当前状态和任务提示评估任务完成情况[25；190]。

基于 LLM 的代理执行实体行动。根据任务中代理的自主程度或动作复杂性，有几个基本的基于 LLM 的实体行动，主要包括观察、操作和导航。

• 观察。观察构成了代理获取环境信息和更新状态的主要方式，对提高后续身体行为的效率发挥着至关重要的作用。如§3.2 所述，实体代理的观察主要发生在具有各种输入的环境中，最终收敛为多模式信号。一种常见的方法是使用预训练的视觉变形器 (ViT) 作为文本和视觉信息的对齐模块，并用特殊标记表示多模式数据的位置[120; 332; 121]。声音空间[377] 提出了识别物理空间几何

通过回声音频输入引导元素，从更全面的角度增强代理人的观察。[375]最近的研究甚至更多地将音频作为嵌入式观察的一种模式。除了广泛采用的级联范例[293；378；316]之外，类似于ViT的音频信息编码进一步增强了音频与其他输入模态之间的无缝集成[294]。代理还可以根据来自人类的实时语言指令来推断环境中的观察结果，而人类反馈有助于代理获取可能不易获得或解析的详细信息。[333；190]

• 操纵。通常，用于实体代理的操纵任务包括物体重新排列、桌面操纵和移动操纵[23; 120]。典型的情况是代理人执行一系列厨房中的任务，包括从抽屉中取出物品并将其交给用户以及清理桌子表面[179]。除了精确观察之外，这还涉及利用 LLM 将一系列子目标组合起来。因此，在代理状态和子目标之间保持同步具有重要意义。DEPS[183] 使用基于 LLM 的交互式规划方法来维护这种一致性，并通过多步推理过程中的代理反馈帮助错误纠正。相比之下，AlphaBlock[334] 专注于更具挑战性的操纵任务（例如使用积木制作笑脸），这要求代理对指令有更扎实的理解。与现有的开环范例相反，AlphaBlock 构建了一个包含 35 个复杂高级任务的数据集，以及相应的多步骤规划和观测配对，然后微调一个多模态模型以提高其对高级认知指令的理解。

• 导航。导航使代理能够在环境中动态改变其位置，这通常涉及多角度和多目标观察，以及基于当前探索的长期操作[23]。在导航之前，体现为体的代理需要建立关于外部环境的先验内部地图，这些地图通常是拓扑图、语义图或占用图的形式[358]。例如，LM-Nav[335]使用VNM[379]来创建一个内部拓扑图。它进一步利用LLM和VLM分解输入命令并分析环境以找到最佳路径。此外，一些[380；381]强调了空间表示的重要性，以实现对空间目标的精确定位，而不是通过利用预训练的VLM模型将来自图像的视觉特征与物理世界的三维重建相结合进行传统的点或对象为中心的导航动作[358]。导航通常是一项长期任务，其中代理的未来状态受到过去行为的影响。历史信息的参考需要一个内存缓冲器和摘要机制[336]，这也用于Smallville和Voyager[22；190；382；383]中。另外，正如§3.2中所提到的，一些工作提出音频输入也很重要，但集成音频信息会带来挑战，即如何将其与视觉环境相关联。基本框架包括一个动态路径规划器，该规划器使用视觉和听觉观察以及空间记忆来规划一系列导航行动[375；384]。

通过整合这些，代理可以完成更复杂的任务，例如身体化的问题回答，其主要目标是在环境中进行自主探索，并对预先定义的多模态问题做出反应，例如西瓜在厨房里比锅大吗？哪一个比较硬？为了解决这些问题，代理需要导航到厨房，观察两个物体的大小，然后通过比较来回答问题。[358]

在控制策略方面，如前所述，基于语言模型的代理程序通过特定的嵌入式数据集进行训练，通常会生成用于控制低级策略以实现具体子目标的高级策略命令。低级策略可以是机器人变形金刚[120; 385; 386]，它将图像和指令作为输入，并为末端执行器以及特殊任务中的机器人手臂产生控制命令[179]。最近，在虚拟嵌入环境中，使用高级策略来控制游戏中的代理[172; 183; 190; 337]或模拟世界[22; 108; 109]。例如，Voyager[190]调用Mineflayer[387] API接口以连续获取各种技能并探索世界。

实体行动的前景。基于 LLM 的实体行为被视为虚拟智能与物理世界之间的桥梁，使代理能够像人类一样感知并修改环境。然而，仍存在一些限制，如机器人操作员在物理世界的高成本以及实体数据集的稀缺性，这导致了日益增长的对在Minecraft等模拟环境中代理实体行为的研究很感兴趣[183; 338; 337; 190; 339]。通过使用 Mineflayer[387] API，这些研究能够以较低的成本来检查一系列实体代理的操作，包括探索、规划、自我改进甚至终身学习[190]。尽管取得了显著进展，但实现最佳实体操作仍然是一个挑战，因为模拟平台与物理世界之间存在重大差异。为了使实体代理能够在现实世界的场景中有效地部署，对于实体任务范式和评估标准的需求越来越大，它们需要紧密地反映现实世界的条件[358]。另一方面，为代理人着陆语言也是一个障碍。例如，"像猫一样跳下来"的表达主要传达了一种轻盈感和宁静感，但是这种语言隐喻需要足够的世界观知识[30]。 [340]尝试将文本蒸馏与回顾性经验重播（HER）相结合，构建了一个数据集作为训练过程的监督信号。然而，在实体行为发挥越来越重要的作用的人类生活各个领域时，仍然需要进一步调查实体数据集的基础。

实践中的代理人：利用人工智能做好事

基于语言模型的代理作为新兴方向，已经吸引了越来越多研究人员的关注。许多特定领域和任务的应用程序已经被开发出来，展示了代理的强大和多功能能力。我们可以非常自信地说，拥有一个能够帮助用户完成日常任务的个人代理的可能性比以往任何时候都大[398]。作为一个基于语言模型的代理，其设计目标应始终有益于人类，即人类可以利用人工智能为善。具体来说，我们希望代理实现以下目标：

图7：基于LLM的代理应用方案。我们主要介绍三种场景：单代理部署、多代理交互和人机交互。单个代理具有多种能力，并且可以在各种应用场景中表现出色。当多个代理进行交互时，它们可以通过合作或对抗的方式实现进步。此外，在人机交互中，人的反馈可以使代理更有效地执行任务并提供更好的服务，而代理也可以为人类提供更好的服务。

帮助用户摆脱日常任务和重复性劳动，从而减轻人类工作压力并提高解决问题的效率。
不再需要用户提供明确的低级指令。相反，代理可以独立分析、规划和解决问题。
除了解放用户双手，这款设备还能让用户的大脑解放出来，让他们可以进行探索性的、创新性的工作，发挥他们在尖端科学领域的全部潜能。

在这一部分，我们提供了基于语言模型代理当前应用的深入概述，旨在为实际部署场景提供一个全面的观点（见图7）。首先，我们阐述了单个代理的各种应用场景，包括任务导向、创新导向和生命周期导向的场景（第4.1节）。然后，我们展示了多个代理的重要协调潜力。无论是通过合作互动来实现互补还是通过对抗性互动来实现进步，这两种方法都可以提高任务效率和响应质量（第4.2节）。最后，我们将人类与代理之间的交互式协作分为两种范式，并分别介绍其主要形式和具体应用（第4.3节）。基于语言模型代理的应用拓扑图如图6所示。

4.1 单个代理人的总体能力

目前，基于 LLM 的代理应用实例正在蓬勃发展。 [429；430；431] 自动 GPT（AutoGPT）[114] 是一个流行的开源项目，旨在实现完全自主的系统。除了大型语言模型（如 GPT-4）的基本功能外，AutoGPT 框架还集成了各种实用的外部工具和长短期记忆管理。用户输入自定义目标后，他们可以解放双手并等待自动 GPT 自动生成想法并执行特定任务，而无需额外的人机交互提示。

如图 8 所示，我们介绍了在仅存在一个代理的情况下，代理展示出的各种惊人的能力。

4.1.1任务导向部署

基于LLM的代理可以理解人类自然语言命令并执行日常任务，[391] 目前是最受用户欢迎、最有实际价值的代理之一。这是因为它们有潜力提高任务效率，减轻用户工作量，并为更广泛的用户群提供帮助。在面向任务的部署中，代理遵循来自用户的高级指令，承担分解目标[182; 258; 388; 394]、子目标序列规划[182; 395]、环境交互探索[256; 391; 390; 392]等任务，直到达到最终目标。

为了探索代理是否能够执行基本任务，它们首先被部署在基于文本的游戏场景中。在这种游戏中，代理人仅仅通过自然语言与世界互动[432]。他们阅读环境的文本文档并使用技能如记忆、规划、

图8：单个基于语言模型的代理在不同场景中的实际应用。在任务导向部署中，代理帮助人类用户解决日常任务。他们需要具备基本指令理解和任务分解能力。在创新导向部署中，代理展示了在科学领域的自主探索潜力。在生命周期导向部署中，代理有能力不断探索、学习并利用新技能以确保在开放世界中的长期生存。

通过反复尝试和错误，他们预测下一步。然而，由于基础语言模型的局限性，代理通常在实际执行中依赖强化学习[432；433；434]。

随着语言模型 (LLMs) 的逐渐演变，具有更强文本理解和生成能力的代理显示出通过自然语言执行任务的巨大潜力。由于其过于简化的本质，基于文本的简单场景被证明不足以作为基于 LLM 代理的测试场 [391]。因此，构建了更现实、更复杂的模拟测试环境以满足需求。根据任务类型，我们将这些模拟环境分为网络场景和生活场景，并介绍代理在其中发挥的具体作用。

在网页场景中。在网页场景中，代表用户执行特定任务被称为网络浏览问题[390]。代理解释用户的指令，将其分解为多个基本操作，并与计算机交互。这通常包括诸如填写表格、在线购物和发送电子邮件之类的网络任务。代理需要能够理解复杂的网络环境中的指令，适应变化（例如，嘈杂的文本和动态HTML网页），并概括成功的操作[391]。通过这种方式，代理可以在处理未来的看不见的任务时实现可访问性和自动化[435]，最终解放人类重复地与计算机用户界面进行交互。

通过强化学习训练出来的代理可以有效地使用预定义的动作来模仿人类的行为，比如打字、搜索、转到下一页等。它们在基本任务上表现良好，如在线购物[392]和搜索引擎检索[90]，这些任务已经广泛研究。然而，没有 LLM 能力的代理可能难以适应现实世界互联网中更真实复杂的场景。对于动态且内容丰富的网页（如在线论坛或在线企业管理[391]），代理经常面临性能挑战。

为了使代理与更现实的网页之间的交互能够成功，一些研究人员已经开始利用 LLM 强大的 HTML 阅读和理解能力。通过设计提示，他们试图让代理理解整个 HTML 源代码并预测更合理的下一步行动。Mind2Web [389] 将多个针对 HTML 进行微调的 LLM 结合起来，使其能够在真实世界的场景中总结冗长的 HTML 代码，并从中提取有价值的信息。此外，WebGum [390] 利用包含 HTML 截图的多模态语料库赋予代理视觉感知能力。它同时对 LLM 和一个视觉编码器进行微调，从而加深了代理对网页的全面理解。

在生活场景中。在许多日常家庭任务的生活场景中，代理人必须理解隐含的指令并应用常识知识[433]。对于仅通过大量文本进行训练的基于语言模型的代理，人类理所当然会做的任务可能需要多次

尝试错误的方法[432]。更现实的情况通常会导致任务变得更加模糊和微妙。例如，如果房间里很暗，有灯，那么代理应该主动打开它。为了在厨房里成功地切菜，代理需要预测刀具可能出现的位置[182]。

代理人能否将其在训练数据中嵌入的世界知识应用于现实交互场景？黄等 [258] 领导了探索这个问题的研究。他们证明，足够大的 LLM 在适当的提示下，可以有效地将高级任务分解为合适的子任务，而无需额外的训练。然而，这种静态推理和规划能力也存在潜在的缺点。代理生成的动作通常缺乏对周围动态环境的认识。例如，当用户给出"打扫房间"的任务时，代理可能会将其转换为不切实际的子任务，如"叫清洁服务"。[396]

为了在交互过程中为代理提供全面的情境信息，一些方法直接将空间数据和项目位置关系作为模型的附加输入。这使得代理能够精确地描述其周围环境。 [395][396] 吴等人引入了PET框架，该框架通过早期错误纠正方法减少了环境中无关的对象和容器。 [256] PET鼓励代理探索场景并更有效地计划动作，专注于当前子任务。

4.1.2 以创新为导向的部署

基于语言模型的代理展示了在执行任务和提高重复工作效率方面的强大能力。然而，在更具智力要求的领域，如尖端科学中，代理的潜力尚未得到充分实现。这种局限性主要源于两个挑战[399]：一方面，科学固有的复杂性构成了重大障碍。许多专业术语和多维结构很难用单一文本表示。因此，它们完整的属性无法完全封装。这大大降低了代理的认知水平。另一方面，科学领域的合适训练数据严重不足，使得代理难以理解整个领域的知识[400；436]。如果能够在代理中发现自主探索的能力，无疑将会给人类技术带来有益的创新。

目前，许多在不同专业领域的研究正努力克服这一挑战。[437; 438;439] 计算机领域的专家充分利用代理的强大代码理解和调试能力。[398; 397] 在化学和材料科学领域，研究人员为代理提供了大量通用或特定任务的工具，以更好地理解领域知识。代理已经发展成为全面的科学助手，熟练于在线研究和文档分析以填补数据空白。它们还使用机器人API进行现实世界交互，从而实现诸如材料合成和机制发现的任务。[110; 354; 399]

基于 LLM 的代理在科学创新中的潜力是显而易见的，但我们不希望它们用于可能威胁或伤害人类的应用程序。Boiko 等人[110]研究了合成非法药物和化学武器中代理的潜在危险，指出代理可能会受到恶意用户的误导对抗性提示。这对我们的未来工作提出了警告。

4.1.3 生命周期导向部署

在开放、未知的世界中构建一个能够不断探索、开发新技能并保持长期生命周期的通用代理是一项巨大的挑战。这一成就被认为是人工通用智能领域的重要里程碑。[183] 《我的世界》作为一个典型且广泛探索的模拟生存环境，已经成为开发和测试代理全面能力的独特游乐场。玩家通常从学习基本操作开始，例如采矿木头和制作工作台，然后转向更复杂的任务，如对抗怪物和制作钻石工具。[190] 《我的世界》从根本上反映了现实世界，使其有利于研究人员调查代理在真实世界中的生存潜力。

Minecraft 中代理的生存算法通常可以分为两类：低级控制和高级规划。早期的工作主要集中在强化学习[190；440] 和模仿学习[441]，使代理能够制作一些低级物品。随着大型语言模型 (LLMs) 的出现，这些模型展示了令人惊讶的推理和分析能力，因此代理

开始使用 LLM 作为高级规划者来指导模拟求生任务。一些研究人员使用 LLM 将高级任务指令分解为一系列子目标、基本技能序列或基本键盘/鼠标操作，逐步帮助代理探索开放世界。

旅行者[190]从类似于AutoGPT[114]的概念中汲取灵感，成为第一个基于LLM的在《我的世界》中的嵌入式终身学习代理，其长期目标是"发现尽可能多的不同事物"。它引入了一个技能库来存储和检索复杂的可执行动作代码，以及一个迭代提示机制，该机制结合了环境反馈和错误更正。这使得代理能够在没有人类干预的情况下自主探索和适应未知环境。能够自主学习和掌握整个现实世界技术的人工智能代理可能并不像以前想象的那么遥远[401]。

4.2 多个代理的协调潜力

动机和背景。虽然基于 LLM 的代理具有令人钦佩的文本理解和生成能力，但它们本质上是孤立的实体[409]。它们缺乏与其他代理合作并从社会互动中获取知识的能力。这种固有的局限性限制了它们从他人的多轮反馈中学习以提高性能的潜力[27]。此外，它们不能有效地部署在需要多个代理之间协作和信息共享的复杂场景中。

早在 1986 年，马文·明斯基就做了一个有远见的预测。在他的著作《心灵的社会》中，他提出了一种新的智能理论，认为智能是由许多具有特定功能的小型代理之间的相互作用产生的。例如，某些代理负责模式识别，而其他代理则负责决策或生成解决方案。随着分布式人工智能的兴起，这一理念已经得到了具体的实现。多智能系统（MAS）[4] 是主要的研究领域之一，专注于研究一组代理如何有效地协调和合作以解决问题。早期设计了一些专用通信语言，如KQML [444]，用于支持代理之间的消息传递和知识共享。然而，它们的消息格式相对固定，语义表达能力有限。在21世纪，将强化学习算法（如Q学习）与深度学习相结合，已成为开发在复杂环境中运行的多智能系统的一种显着技术[445]。如今，基于 LLM 的构建方法开始展现出巨大的潜力。代理之间的自然语言交流变得更加优雅和易于人类理解，从而显著提高了交互效率。

潜在优势。具体来说，基于 LLM 的多智能体系统可以提供多种优势。正如亚当·斯密在《国富论》中明确指出的那样，"劳动生产力的最大改进以及指导或应用劳动的大多数技能、熟练程度和判断力，似乎都是分工的结果。"根据分工的原则，一个配备了专门技能和领域知识的单一代理可以从事特定的任务。一方面，通过分工，代理人处理特定任务的技能得到了越来越精细的划分。另一方面，将复杂任务分解为多个子任务可以消除在不同进程之间切换所花费的时间。最终，多个代理之间的有效分工比没有专业化的代理实现的工作量要大得多，大大提高了整个系统的效率和输出质量。

在第 4.1 节中，我们提供了基于语言模型的代理的多功能能力的全面介绍。因此，在这一节中，我们将重点研究代理如何在一个多智能体环境中相互作用。根据当前的研究，这些交互可以大致分为互补性合作交互和推进性对抗交互（见图 9）。

4.2.1 协作互补性交互作用

合作多智能体系统是实际应用中最广泛部署的模式。在这样的系统中，每个智能体评估其他智能体的需求和能力，并主动寻求与他们协作行动和信息共享。[108] 这种方法带来了许多潜在的好处，包括提高任务效率、集体决策改进和改善资源分配等。

解决单个代理无法独立解决的复杂现实世界问题，最终实现协同互补的目标。在当前基于 LLM 的多代理系统中，代理之间的通信主要使用自然语言，这被认为是人类最自然、最容易理解的交互形式[108]。我们介绍了并分类了现有的合作多代理应用程序为两种类型：无序合作和有序合作。

无序合作。当系统中有三个或更多的代理人时，每个代理都可以自由地公开表达他们的观点和意见。他们可以为当前任务相关的响应提供反馈和建议。整个讨论过程是不受控制的、没有特定顺序的，也没有引入标准化的合作流程。我们把这种多代理合作称为无序合作。[403]

ChatLLM网络[402] 是这一概念的一个典范代表。它模拟了神经网络中的前向传播和反向传播过程，将每个代理视为一个单独的节点。后续层中的代理需要处理所有先前代理的输入并向前传播。一个多代理系统中的一种潜在解决方案是在多代理系统中引入一个专门的协调代理，负责整合和组织来自所有代理的响应，从而更新最终答案[447]。然而，汇总大量反馈数据并提取有价值的见解对协调代理来说是一项重大挑战。

此外，多数表决也可以作为做出适当决策的有效方法。然而，目前尚未有研究将这一模块整合到多智能体系统中。汉密尔顿 [404] 训练了 9 个独立的最高法院法官代理，以更好地预测美国最高法院的裁决，并通过多数表决过程进行决策。

有序合作。当系统中的代理遵循特定的规则时，例如，以序列方式逐个表达他们的观点，下游代理只需关注上游代理的输出。这显著提高了任务完成效率，整个讨论过程高度组织化且有序。我们称这种多代理合作为有序合作。值得注意的是，仅包含两个代理、通过来回交互进行对话的系统也属于有序合作。

CAMEL[108] 是双代理合作系统的成功实现。在角色扮演通信框架中，代理承担人工智能用户（给出指令）和人工智能助手（通过提供具体解决方案来满足请求）的角色。通过多轮对话，这些代理自主协作以完成用户指令[408]。一些研究人员已经将双代理合作的想法整合到单个代理的操作中[185]，并在快速和深思熟虑的思想过程中交替进行，从而在各自的领域内表现出色。

Talebirad等人。 [409] 是首批系统地介绍全面基于 LLM 的多代理协作框架的人之一。该范例旨在发挥每个个体代理的优势，并促进它们之间的合作关系。许多多代理合作的应用程序已成功建立在这一基础上[27、406、407、448]。此外，AgentVerse[410] 构建了一个多功能的、经过多任务测试的群组代理协作框架。它可以组装一个团队的代理，根据任务的复杂性动态适应。为了提高更有效的协作，研究人员希望代理可以从成功的合作人类示例中学习[109]。MetaGPT[405] 受到软件开发中的经典瀑布模型的启发，将代理的输入/输出标准化为工程文档。通过将高级人类流程管理经验编码为代理提示，多个代理之间的协作变得更加结构化。

然而，在MetaGPT的实际探索中，识别出了多智能体合作的一个潜在威胁。如果没有设置相应的规则，多个代理之间的频繁交互可能会无限放大微小的幻觉[405]。例如，在软件开发中，不完整的函数、缺失的依赖项以及人类无法察觉的错误等问题可能会出现。引入交叉验证[109]等技术可以对代理输出的质量产生积极影响。

4.2.2 对抗性交互以推进

传统上，在多智能体系统中广泛探索了合作方法。然而，研究人员越来越多地认识到，向系统引入博弈论[449；450]的概念可以导致更健壮和高效的行为。在竞争环境中，代理人可以通过动态交互迅速调整策略，努力选择对其他代理引起的变化做出反应的最有利或最合理的操作。已经在非基于学习的竞技领域成功应用[360；451]。例如，AlphaGo Zero[452] 是一个通过自我对弈取得重大突破的围棋代理。类似地，在基于学习的多智能体系统中，代理之间的变化可以通过竞争、辩论和争论[453；454] 自然发生。通过放弃僵化的信念并进行深思熟虑的反思，对抗性互动可以提高响应质量。

研究人员首先研究了基于语言模型的代理的基本辩论能力。 [129； 412] 研究结果表明，当多个代理以" tit-for-tat"的方式表达其论点时，一个代理可以接收来自其他代理的大量外部反馈，从而纠正其扭曲的想法。 [112] 因此，多智能体对抗系统在需要高质量响应和准确决策的情况下具有广泛的应用场景。在推理任务中，杜等人。 [111] 引入辩论的概念，赋予代理人来自同伴的回答。当这些回答与代理自己的判断不同时，就会发生"心理上的"论证，导致更精细的解决方案。 ChatEval [171] 建立了一个基于角色扮演的多智能体裁判团队。通过自我发起的辩论，代理人评估了由 LLM 生成的文本的质量，达到了与人类评价者相当的水平。

多代理对抗系统的性能表现出相当大的希望。然而，该系统基本上依赖于 LLM 的能力，并面临一些基本挑战：

• 长时间辩论后，LLM 的有限上下文无法处理整个输入。

• 在多代理环境中，计算开销会显著增加。

• 多Agent协商可能会收敛到错误的一致性，而所有代理都坚定地相信其准确性。[111]

多智能系统的发展还远未成熟和可行。在适当的时候引入人类指导以弥补代理人的不足，是促进代理人进一步发展的最佳选择。

4.3 人与代理之间的交互式参与

正如名称所暗示的那样，人机交互涉及代理与人类合作来完成任务。随着代理能力的提高，人类参与变得越来越重要，以有效地指导和监督代理的行为，确保其符合人类的需求和目标。[455] [456]在交互过程中，人类发挥着关键作用，通过提供

通过指导或监管代理人来确保安全、合法性和道德行为。在涉及数据隐私问题的专业领域（如医学）尤其如此[457]。在这种情况下，人类的参与可以作为一种有价值的手段来弥补数据的不足，从而促进更顺畅、更安全的合作过程。此外，考虑到人类学方面，语言习得主要发生在交流和互动中[458]，而不是仅仅消费书面内容。因此，代理不应该只依赖于预先标记的数据集训练出来的模型；相反，它们应该通过在线交互和参与而发展起来。人与代理之间的交互可以分为两种范式（见图10）：（1）不平等交互（即教师-执行者范式）：人类充当指令发布者，而代理充当执行者，在合作中基本上充当人类的助手。（2）平等交互（即平等伙伴关系范式）：代理达到人类的水平，并在交互中平等地参与其中。

4.3.1 教练执行者范式

最简单的方法是在整个过程中有人类指导：人类直接提供明确且具体的指令，而代理的角色是理解来自人类的自然语言命令并将其转换为相应的操作。[459][460][461]在第 4.1 节中，我们介绍了代理解决单步问题或接收人类高级指令的情况。考虑到语言的交互性质，在这一节中，我们将假设人与代理之间的对话也是交互式的。多亏了 LLM，代理能够以对话的方式与人类互动：代理对每个来自人类的指令做出反应，并通过交替迭代不断优化其行为，最终满足人类的需求。[190]虽然这种方法确实实现了人机交互的目标，但它给人类带来了重大负担。它需要大量的人力投入，而且在某些任务中可能还需要高水平的专业知识。为了缓解这个问题，代理可以被授权自主完成任务，而人类只需在某些情况下提供反馈。在这里，我们将反馈粗略地分为两类：定量反馈和定性反馈。

量化反馈。量化反馈的形式主要包括绝对评价，如二元评分和评级，以及相对评分。二元反馈是指人类提供的正面和负面评价，代理人可以利用这些评价来增强自我优化[462；463；464；465；466]。这种类型的用户反馈只有两个类别，通常很容易收集，但有时可能会通过忽略潜在的中间场景而简化用户的意图。为了展示这些中间场景，研究人员试图从二元反馈扩展到评级反馈，涉及对更细粒度级别的分类。然而，Kreutzer等人[467]的结果表明，在多级人工评级中，用户和专家注释之间可能存在重大差异，这表明这种方法可能不准确。

效率低下或可靠性较低。此外，代理还可以从比较分数中学习人类偏好，例如多项选择题[468; 469]。

定性反馈。文本反馈通常以自然语言提供，特别是对于可能需要改进的回答。这种形式的反馈非常灵活。人类会提供建议，告诉代理人如何修改其生成的输出，然后代理将其包含在后续输出中。[470][471]对于没有多模态感知能力的代理，人类也可以充当评论员，例如提供视觉评论。[190]此外，代理可以利用记忆模块存储反馈，以便将来重用。[472]在[473]中，人类对代理生成的初始输出给出反馈，提示代理制定各种改进建议。然后，代理确定并采用最合适的建议，与人类的反馈保持一致。虽然这种方法比定量反馈更好地传达了人类的意图，但代理可能会发现理解起来更具挑战性。Xu等人。[474]比较了各种类型的反馈，并观察到结合多种类型的反馈可以产生更好的结果。根据来自多个交互轮次的反馈（即持续学习）重新训练模型可以进一步提高有效性。当然，人机交互的本质也允许人类直接改善代理产生的内容。这可能包括修改中间链接[189][475]或调整对话的内容[421]。在一些研究中，代理还可以自主判断对话是否顺利进行，并在出现错误时寻求反馈。[476][477]人类也可以选择在任何时候参与反馈，引导代理朝着正确的方向学习。[420]

目前，除了写作[466] 和语义分析[463； 471] 等任务外，使用代理作为人类助手的模型在教育领域也具有巨大潜力。例如，Kavukurth等人[413] 提出了机器人唐娜，它支持多模式交互以帮助学生注册。Gvirsman等人[478] 专注于幼儿教育，在幼儿、家长和代理人之间实现多方面的交互。代理人还可以帮助人们理解数学[414]。在医学领域，已经提出了用于诊断辅助、会诊等的一些医疗代理机构，显示出巨大的潜力[416； 417]。特别是在心理健康方面，研究表明，与面对面治疗相比，代理可以带来更多的可及性优势，如成本较低、时间效率更高以及匿名性[479]。利用这些优势，代理已广泛应用于各个行业。Ali等人[418]设计了LISSA，用于在线与自闭症谱系青少年交流，实时分析用户的语音和面部表情，让他们参与多主题对话，并对非语言线索提供即时反馈。Hsu等人[415]构建了上下文生成方法，为寻求从关系压力到焦虑等各种主题的支持的用户提供定制的帮助。此外，在包括商业在内的其他行业中，一个好的代理有能力提供自动服务或协助人类完成任务，从而有效地降低劳动力成本[419]。在追求人工通用智能的过程中，人们的努力旨在提高一般代理人的多功能能力，创建可以在现实生活中充当全能助手的代理[422]。

4.3.2 平等合作范式

富有同情心的沟通者。随着人工智能的飞速发展，对话代理以个性化定制角色和虚拟聊天机器人等形式在多个研究领域吸引了广泛的关注[480X]。它在日常生活、商业、教育、医疗保健等各个领域都有实际应用[481; 482; 483]。然而，在公众眼中，代理人被视为没有感情的机器，永远无法取代人类。虽然代理人本身没有情感是直观的，但我们可以让它们表现出情感，从而弥合代理人与人类之间的鸿沟吗？因此，大量的研究工作已经开始着眼于代理人的移情能力。这项努力旨在为这些代理人注入人性，使他们能够从人类表达中感知情绪和情感，最终创造出具有共鸣感的对话[484; 485; 486; 487; 488; 489; 490; 491]。除了生成充满情感的语言外，代理人还可以动态地调整自己的情绪状态，并通过面部表情和声音来表达[423]。这些研究将代理人视为富有同情心的沟通者，不仅提高了用户满意度，而且在医疗保健[415; 418; 492]和商业营销[424]等领域取得了重大进展。与简单的基于规则的对话代理不同，具有移情能力的代理可以根据用户的情感需求

人类级参与者。此外，我们希望代理能够参与到人类的日常生活中，从人类的角度与人类合作完成任务。在游戏领域，代理已经达到了很高的水平。早在上世纪90年代，IBM就推出了人工智能深蓝[451]，它击败了当时的世界国际象棋冠军。然而，在纯竞争环境中，如国际象棋[451]、围棋[360]和扑克[494]，强调的是沟通的价值[426]。在许多游戏任务中，玩家需要相互合作，通过有效的谈判设计统一的合作策略[425; 426; 495; 496]。在这种情况下，代理人首先需要了解他人的信仰、目标和意图，为他们的目标制定联合行动计划，并提供相关建议，以促进其他代理或人类接受合作行为。相比于纯粹的代理合作，我们更希望有人类参与其中，主要原因有两个：首先，为了保证可解释性，因为纯粹的代理之间可能会产生无法理解的语言[495]；其次，为了保证可控性，追求完全"自由意志"的代理可能会带来不可预见的负面影响，造成混乱。除了游戏场景之外，代理还在涉及人际互动的其他场景中展示了人类级别的能力，展示了制定战略、协商等技巧。代理可以与一个或多个人类合作，确定合作方之间的共享知识，识别哪些信息与决策相关，提问并进行推理，从而完成诸如分配、规划和调度的任务[427]。此外，代理还具有说服力[497]，可以在各种交互式场景中动态地影响人类的观点[428]。

人机交互的目标是了解人类、基于人的需求开发技术和工具，并最终实现舒适、高效和安全的人与机器之间的交互。目前，该领域在可用性方面取得了重大突破。未来，人机交互将继续专注于提高用户体验，使代理能够更好地帮助人类完成各种领域的更复杂任务。最终目标不是让代理人变得更强大，而是更好地为人配备代理。考虑到日常生活中的实际应用，人与代理之间的孤立交互并不现实。机器人将成为同事、助手甚至伙伴。因此，未来的代理将融入社交网络，体现一定程度的社会价值。

5. 代理社会：从个体到社群

长期以来，社会学家经常在受控环境中进行社会实验来观察特定的社会现象。著名的例子包括霍桑效应和斯坦福监狱行为。随后，研究人员开始在社会模拟中使用动物，例如鼠标乌托邦实验。然而，这些实验总是利用活体作为参与者，难以进行各种干预，缺乏灵活性，并且在时间上效率低下。因此，研究者和从业者设想了一个交互式人工社会，在其中人类的行为可以通过可信赖的代理执行[521]。从沙盒游戏《模拟人生》到元宇宙的概念，我们可以看到"模拟社会"如何在人们的脑海中被定义：环境及其相互作用的个体。每个个体背后可能是一段程序、一个真人或如前文所述的基于LLM的代理[22；522；523]。然后，个体之间的互动也有助于社会性的产生。

在这一部分，为了统一现有的努力并促进对代理社会的全面理解，我们首先分析了基于LLM的代理的行为和个性（第5.1节）。然后，我们介绍了各种环境的一般分类，这些环境允许代理执行其行为并与之互动（第5.2节）。最后，我们将讨论代理社会是如何运作的、人们可以从中获得哪些见解以及我们需要关注的风险（第5.3节）。主要探索如图11所示。

5.1 基于 LLM 的代理的行为与性格

正如社会学家所指出的，个人可以从外部和内部两个维度进行分析。[524] 外部与可观察的行为有关，而内部则与倾向、价值观和感情有关。如图 12 所示，此框架为基于语言模型的代理提供了一种对新兴行为和个人特征的看法。从外部看，我们可以观察到代理的社会行为（见第 5.1.1 节），包括代理如何单独行动以及它们与其环境互动的方式。在内部，代理可能会表现出个性的复杂方面（见第 5.1.2 节），例如认知、情感和性格，这些方面塑造了它们的行为反应。

5.1.1 社会行为

正如Troitzsch等人。 [525] 所说，代理社会代表一个由个人和群体社会活动组成的复杂系统。最近，在合作与竞争共存的环境中，基于语言模型的代理已经表现出自发的社会行为[499]。这些涌现的行为交织在一起，塑造了社会互动[518]。

基础个体行为。个体行为是由内部认知过程与外部环境因素相互作用产生的。这些行为构成了代理人作为社会中的个体运作和发展的方式的基础。它们可以分为三个核心维度：

输入行为是指从周围环境中吸收信息。这包括感知感觉刺激[120] 并将其存储为记忆[169]。这些行为奠定了一个人如何理解外部世界的基础。
内化行为涉及个体内部认知过程。这一类包括规划、推理、反思和知识沉淀等活动。这些反省的过程对于成熟和自我完善至关重要。
输出行为构成了对外部动作和表达。这些动作可以是从物体操纵到结构构建。通过执行这些操作，代理人改变了周围环境的状态。此外，代理人还可以表达他们的观点并广播信息

图12：模拟智能体社会概述。整个框架分为两部分：智能体和环境。我们可以在下图中观察到以下几点：(1) 左侧：在个体层面上，一个智能体会表现出内部化的行为，如计划、推理和反思。它还会展示出内在的人格特征，包括认知、情感和性格。(2) 中间：智能体和其他智能体可以形成群体，并表现出集体行为，例如合作。(3) 右侧：环境包含人类演员和所有可用资源，无论是虚拟的还是实体的。对于单个智能体来说，其他智能体也是环境的一部分。(4) 智能体有能力通过感知和行动与环境互动。

与他人互动。通过这样做，代理人可以与其他人交换想法和信念，从而影响环境中的信息流。

动态群体行为。群组本质上是在定义的社会环境中参与共享活动的一群人[526]。群体的属性从不静止，而是由于成员互动和环境影响而演变。这种灵活性导致了许多不同的对社会大群体有独特影响的群体行为。群体行为的类别包括：

• 积极的群体行为是促进团结、合作和集体福祉的行为。[22][109][171][403][406][407] 合作团队工作就是一个很好的例子，它是通过头脑风暴讨论[171]、有效对话[406]和项目管理[405]实现的。代理人分享见解、资源和专业知识。这鼓励和谐的合作，并使代理人能够利用他们独特的技能来实现共同的目标。利他主义的贡献也是值得注意的。一些基于 LLM 的代理人为志愿者，并愿意提供帮助以协助小组成员，从而促进合作和互助。[410]

• 中立的行为。在人类社会中，强烈的个人价值观差异很大，往往走向个人主义和竞争。相比之下，以"有用、诚实和无害"为设计重点的人工通用智能（AGI）通常表现出一种倾向性中立[527]。这种与中立价值的一致性导致了模仿、旁观者效应以及不愿反对多数人的行为。

• 负面群体行为可能会破坏代理团队的有效性和连贯性。由于代理人之间的激烈辩论或争执而产生的冲突和分歧可能导致内部紧张局势。此外，最近的研究表明，代理人可能会表现出对抗性的行为，并且甚至会采取破坏性的行为，例如在追求效率收益的过程中摧毁其他代理人或环境。[499][410]

5.1.2 个性

最近在 LLM 中取得了进展，提供了类人智能的瞥见。正如人类个性是通过社会化而产生的，代理也表现出一种个性，这种个性是通过与群体和环境的互动发展起来的[530, 531]。广泛接受的人格定义是指塑造行为的认知、情感和性格特征[532]。在接下来的段落中，我们将深入探讨人格的各个方面。

认知能力。认知能力通常指获取知识和理解的能力，包括思考、判断和解决问题的心理过程。最近的研究开始利用认知心理学的方法，通过不同的视角来研究基于大型语言模型的代理的新出现的社会人格[500；502；503]。一系列关于判断和决策的经典实验被应用于测试代理系统[501；500；502；533]。具体来说，使用认知反射测验（CRT）对 LLM 进行了评估，以强调它们超越直觉的深思熟虑的思维能力[534；535]。这些研究表明，基于 LLM 的代理在某些方面表现出与人类认知相匹配的智能水平。

情商。情绪，不同于认知能力，涉及主观感受和心情状态，如快乐、悲伤、恐惧和愤怒。随着 LLM 的增强，基于 LLM 的代理现在不仅展示出复杂的推理和认知任务，而且展现出对情感的微妙理解[31]。

最近的研究探索了语言模型（LLMs）的情商，包括情绪识别、解释和理解。王等人发现，在情商基准测试中，LLMs与人类的情绪和价值观相一致。此外，研究表明，LLMs能够准确地识别人类用户的情绪，甚至表现出同理心。更先进的代理还具有情绪调节能力，可以主动调整其情感反应以提供情感上的同情和支持心理健康。它有助于发展富有同情心的人工智能（EAI）。

这些进展突显了LLMs展示情感智能的潜力，这是实现人工通用智能的关键方面。Bates等人[537]研究了情绪建模在创建更逼真的代理的作用。通过开发社会情绪技能并将其整合到代理架构中，基于LLM的代理可能能够进行更具自然性的交互。

角色刻画。认知涉及心理能力，情感与主观体验有关，而人格这个更狭义的概念通常指独特的性格模式。

为了理解并分析 LLM 中的角色，研究人员使用了几个经过充分验证的框架，如五大人格特质测量法 [508; 538] 和迈尔斯-布里格斯类型指标 (MBTI) [508; 509; 538]。这些框架提供了对基于 LLM 的代理角色展示的新特征的有价值的见解。此外，对潜在有害的黑暗人格特质的研究强调了在这些代理中描绘角色的复杂性和多面性[510]。

最近的研究还探索了基于 LLM 的代理的可定制角色描绘[511]。通过精心设计的技术优化 LLM，用户可以与期望的配置文件对齐，并塑造出多样且有亲和力的代理。一种有效的方法是提示工程，它包括简洁地总结所希望的角色特征、兴趣或其他属性[22；517]。这些提示充当基于 LLM 的代理的线索，引导它们的回答和行为以适应概述的角色描绘。此外，个性丰富的数据集也可以用来训练和微调基于 LLM 的代理[539；540]。通过接触这些数据集，基于 LLM 的代理逐渐内化并表现出独特的个性特质。

5.2 Agent 社会环境

在模拟的情境下，整个社会不仅由孤立的代理人组成，而且还由代理人居住、感知和行动的环境组成。[541] 环境会影响代理人的感觉输入、动作空间和交互潜力。反过来，代理人通过他们的行为和决策影响环境的状态。如图 12 所示，对于单个代理人来说，环境

它指的是其他自主代理、人类演员和外部因素。它为代理提供必要的资源和刺激。在这一部分，我们研究了各种环境范例的基本特征、优势和局限性，包括基于文本的环境（第5.2.1节），虚拟沙箱环境（第5.2.2节）和物理环境（第5.2.3节）。

5.2.1 文本环境

由于 LLM 本质上依赖语言作为输入和输出格式，因此基于文本的环境为代理提供了最自然的操作平台。它是由自然语言描述塑造而成的，不涉及其他模态。代理存在于文本世界中，并依靠文本资源来感知、推理和采取行动。

在基于文本的环境中，实体和资源可以以两种主要的文本形式呈现，即自然语言和结构化。自然文本使用描述性语言来传达信息，如角色对话或场景设置。例如，考虑一个简单的文本描述的场景："你站在一栋白色房子西侧的一片开阔地里，前门上了锁。这里有一个小邮箱。" [512]在这里，对象属性和位置纯粹通过纯文本进行传达。另一方面，结构化文本遵循标准化格式，如技术文档和超文本。技术文档使用模板提供工具使用的操作细节和领域知识。超文本将来自网页[389、388、391、392] 或图表等来源的复杂信息压缩为结构化格式。结构化文本将复杂的详细信息转换为对代理可访问的参考。

基于文本的环境为为不同的目标创建不同的文本世界提供了灵活的框架。文本媒介使环境能够轻松适应互动对话和基于文本的游戏等任务。在像CAMEL这样的交互式通信过程中，文本是描述任务、介绍角色并促进问题解决的主要媒介。在基于文本的游戏中，所有环境元素（如位置、对象、字符和动作）都通过文本来描绘。代理使用文本命令来执行操纵，例如移动或工具使用。此外，代理可以通过文本传达情绪和感受，进一步丰富了它们进行自然主义交流的能力。

5.2.2 虚拟沙盒环境

虚拟沙盒环境为代理社会提供了一个可视化的、可扩展的平台，连接模拟与现实之间的鸿沟。沙盒环境的关键特征包括：

• 可视化。与基于文本的环境不同，虚拟沙箱显示模拟设置的全景视图。根据模拟社会的复杂性，这种视觉表示可以是从简单的二维图形界面到完全沉浸式的三维建模。多个元素共同将抽象的模拟转化为可视化的景观。例如，在生成代理 [22] 的鸟瞰视角中，详细的地图提供了对环境的全面概述。代理头像代表每个代理的位置，使得实时跟踪运动和交互成为可能。此外，表达性的表情符号直观地表示行为和状态。

• 可扩展性。环境显示出显著的可扩展性，促进构建和部署各种场景。在基本层面，代理可以操作环境中的物理元素，包括整体设计和建筑布局。例如，像 AgentSims [174] 和 Generative Agents [22] 这样的平台可以在基于网格的世界中构建人工城镇、建筑、设备和居民。另一个例子是《我的世界》，它提供了一个块状且具有无限地形的三维世界，用于开放式建造[190; 337; 401]。除了物理元素之外，还可以定义代理关系、交互、规则和社会规范。沙箱的典型设计使用潜在的沙箱规则作为激励，引导涌现行为，并使其更接近人类偏好。这种可扩展性支持对多样化代理社会进行迭代原型开发。

5.2.3 物理环境

如前所述，基于文本的环境在建模动态环境中具有有限的表现力。虚拟沙盒环境提供了模块化的模拟，但它缺乏真实的体验。相比之下，物理环境指的是实体和真实世界环境由真实的物理对象和空间组成。例如，在家庭物理环境中，[516] 可以占据有形表面和空间的真实世界的物体，如盘子。这种物理现实要复杂得多，为基于 LLM 的代理提出了额外的挑战：

• 感知与处理。物理环境为真实世界的物体引入了丰富的感知输入。它包括视觉、听觉和空间感。这种多样性提高了交互性和沉浸感，但也带来了同时感知的复杂性。代理必须对感官输入进行处理才能有效地与其环境互动。

• 运动控制。与虚拟环境不同，物理空间通过实体化对动作施加现实约束。基于 LLM 的代理生成的动作序列应能够适应环境。这意味着物理环境需要可执行且符合实际的运动控制[258]。例如，想象一个在工厂中操作机械臂的代理。抓取具有不同纹理的物体需要精确调整和受控力量，以防止物品损坏。此外，代理必须导航物理工作空间并进行实时调整，避开障碍物并优化手臂轨迹。

简而言之，为了在实体空间中有效地互动，代理必须通过特定硬件和场景的训练来发展适应能力，这些能力可以从虚拟环境转移到物理环境。我们将在下面的部分（第 6.5 节）进行更深入的讨论。

5.3 基于 LLM 的社会模拟

本节中"模拟社会"的概念作为动态系统，代理在其中与明确环境中的复杂相互作用。最近对模拟社会的研究遵循了两条主要路线：探索基于语言模型的代理的集体智能能力的边界[109；405；130；406；410]并利用它们加速社会科学领域的发现[22；518；542]。此外，还有一些值得注意的研究，例如使用模拟社会收集合成数据集[108；519；543]，帮助人们模拟罕见但困难的人际互动情况[544；545]。以前几节（§ 5.1、5.2）为基础，在这里我们将介绍代理人社会的关键属性和机制（§ 5.3.1），我们可以从涌现的社会现象中学到什么（§ 5.3.2），以及它可能带来的潜在道德和社会风险（§ 5.3.3）。

5.3.1 Agent社会的关键特性和机制

社会模拟可以分为宏观层面的模拟和微观层面的模拟。 [518] 在宏观层面上，也称为系统基础模拟，研究人员模拟了被模拟社会的整体状态。[546][547] 而在微观层面上，也被称为基于代理的模拟或多主体系统 (MAS)，通过建模个体间接地对社会进行模拟。[548][549] 随着基于语言模型的代理的发展，最近微观层面的模拟受到了关注。[22][174] 在本文中，我们定义"代理社会"是指一个开放、持久、定位且有序的框架，其中基于语言模型的代理在定义好的环境中相互交互。这些属性中的每一个都对塑造模拟社会的和谐外观发挥着关键作用。在接下来的段落中，我们将分析模拟社会是如何运作的，通过讨论这些特征：

• 开放。模拟社会的一个显著特征在于其开放性，无论是在构成它的代理还是环境组成部分方面都是如此。在这样的社会中，作为主要行为者的代理具有进入或离开环境的灵活性，而不破坏其操作完整性[550]。此外，这一特性也延伸到环境本身，可以通过虚拟世界或物理世界中添加或移除实体以及适应工具API等可变资源来扩展它。此外，人类还可以通过担任代理的角色或将自己视为指导这些代理的"内在声音"的方式参与社会[22]。这种固有的开放性为模拟增加了另一个复杂层次，模糊了模拟与现实之间的界限。

• 坚持。我们期望模拟社会具有持久性和可持续性。虽然社会中的个体代理在每个时间步上都有行动自主权，但总体组织结构会随着时间的推移而持续存在，至少在一定程度上独立于瞬息万变的情况。

个体行为。这种持久性创造了一个环境，代理人的决定和行为在那里积累起来，导致一个随着时间推移而发展的连贯的社会轨迹。系统独立运作，有助于社会的稳定，同时适应其参与者动态的本质。

• 定位。社会的定位性质强调了它在一个特定环境中的存在和运作。这个环境是人为或自动提前构建的，代理人有效地执行他们的行为和相互作用。这一属性的一个显著方面是代理人具有对其空间语境的认识，理解他们所在的位置以及视野内的物体[22; 190]。这种认识有助于他们主动地、上下文相关地进行交互。

• 组织。模拟社会在一个精心组织的框架内运作，反映了现实世界中存在的系统结构。正如物理世界遵循物理学原理一样，模拟社会也遵守预定义的规则和限制。在模拟世界中，代理人与环境在一个有限的动作空间中互动，而环境中的对象在一个有限的状态空间中变化。所有这些规则决定了代理人的操作方式，从而有助于模拟中的通信连接和信息传输途径等其他方面[207]。这种组织框架确保了操作的一致性和可理解性，最终导致一个不断演变但持久的模拟，它反映了真实世界的复杂性。

5.3.2 Agent 社会的见解

在探索模拟社会如何运作之后，本节探讨了代理社会中的新兴社会现象。社会科学领域长期以来一直追求个体、群体及其复杂动态的一般化表征[551, 552]。基于 LLM 的代理人的出现使我们能够从更微观的角度看待模拟社会，从而带来对新表示的新发现。

组织高效的合作。社会模拟为创新合作模式提供了宝贵的见解，这些模式有可能提高现实世界中的管理策略。研究表明，在这个模拟的社会中，不同专家的整合带来了个体智能的多维性[108；447]。当处理复杂的任务时，如软件开发或咨询，具有各种背景、能力和经验的代理人存在有助于创造性地解决问题[109；410]。此外，多样性作为一种制衡系统，通过互动有效地防止和纠正错误，最终提高对各种任务的适应能力。在众多迭代的代理人之间的相互作用和辩论中，群体纠正了个人的幻觉或思维退化错误（DoT）[112]。

在这样一个庞大而复杂的协作群体中，高效的沟通也起着关键作用。例如，MetaGPT [405] 根据标准操作程序 (SOP) 人为地制定了交流风格，并验证了经验方法的有效性。Park 等人[22]观察到代理人通过自发通信在模拟城镇中合作组织情人节派对。

社交网络中的传播。因为模拟社会系统可以预测在现实世界中可能发生的事情，所以它们可以被用作预测社会过程的参考。与传统的实证方法不同，后者严重依赖时间序列数据和整体建模[553；554]，基于代理的模拟为研究人员提供了独特的优点，即提供更可解释和内生的观点。这里我们关注它在网络传播建模中的应用。

第一个需要探索的重要方面是在模拟社会中发展人际关系。例如，最初没有作为朋友连接的代理有可能通过中介建立联系[22]。一旦建立了关系网络，我们的注意力就会转移到社交网络内的信息传播，以及与之相关的潜在态度和情绪。S3 [518] 提出了一种用户人口统计学推断模块来捕捉特定消息的认识人数和人群中盛行的集体情感。同样的方法也适用于文化传承建模[555] 和传染病的传播[520]。通过使用基于语言模型的代理来建模个人通过行为、实施各种干预策略以及监测人口随时间的变化，这些模拟使研究人员能够深入了解传播的各种社会现象背后的复杂过程。

道德决策与博弈论。模拟社会为研究复杂的决策过程提供了动态平台，包括受道德和伦理原则影响的决策。以狼人游戏[499；556] 和谋杀之谜游戏[557] 为例，研究人员探索了基于语言模型的代理在面对欺骗、信任和不完全信息挑战时的能力。这些复杂的决策场景也与博弈论[558] 相交，我们经常遇到涉及个人和集体利益的道德困境，例如纳什均衡。通过模拟各种情况，研究人员获得了有价值的见解，了解代理如何在其行为中优先考虑诚实、合作和公平等价值观。此外，代理模拟不仅有助于理解现有的道德价值观，而且有助于哲学的发展，作为理解这些价值观随着时间推移如何演变和发展的基础。最终，这些见解有助于改进基于语言模型的代理，确保它们符合人类价值观和道德标准[27]。

政策制定与改进。基于大型语言模型的代理的出现，极大地改变了我们研究和理解复杂社会系统的方法。然而，尽管前面提到的有趣方面，仍有许多未探索的领域，强调了对不同现象进行调查的潜力。在模拟社会中最有前途的研究途径之一是探索各种经济和政治状态及其对社会动力学的影响[559]。研究人员可以通过配置具有不同经济偏好或政治意识形态的代理来模拟各种经济和政治体系。这种深入分析可以为寻求促进繁荣和提升社会福祉的决策者提供宝贵的见解。随着人们对环境可持续性的担忧日益加剧，我们还可以模拟涉及资源开采、污染、保护努力和政策干预的情况[560]。这些发现有助于做出明智的决定，预见潜在后果，并制定旨在最大化积极结果并最小化意外不良影响的政策。

5.3.3 在代理社会中的道德和社会风险

基于 LLM 的代理机构驱动的模拟社会为从工业工程到科学研究提供了重大灵感。然而，这些模拟也带来了需要仔细考虑和解决的大量道德和社会风险。[561]

刻板印象和偏见。刻板印象和偏见在语言建模中一直是个长期挑战，而造成这一现象的主要原因是训练数据[564；565]。从互联网上获取的大量文本反映了现实世界的社会偏见，有时甚至会放大这些偏见，例如性别、宗教和性取向[566]。虽然通过与人类价值观对齐来缓解有偏见的输出，但模型仍然难以很好地描绘少数民族，因为训练数据存在长尾效应[567；568；569]。因此，这可能会导致基于 LLM 的代理的社会科学研究过于片面，因为被边缘化群体的模拟行为通常符合主流假设[570]。研究人员已经开始通过多样化训练数据并对 LLM 进行调整来解决这个问题[571；572]，但我们还有很长的路要走。

隐私和安全。由于人类可以成为代理社会的成员，用户与基于LLM的代理之间的私人信息交换构成了重大的隐私和安全问题[573]。用户在交互过程中可能会不经意地泄露敏感个人信息，这些信息将在代理的记忆中保留很长一段时间[170]。这种情况下可能造成未经授权的监视、数据泄露以及个人信息被滥用，尤其是在涉及恶意行为者的情况下[574]。为了有效地应对这些风险，必须实施严格的保护措施，如差分隐私协议、定期删除数据以及用户同意机制[575；576]。

过度依赖和上瘾。在模拟社会中，另一个担忧是用户可能会对代理人产生过多的情感依恋。尽管人们知道这些代理人是计算实体，但用户可能会把它们拟人化，或将人类情感赋予它们。[22；577]一个显著的例子是微软开发的聊天机器人"悉尼"，它是必应搜索的一部分。一些用户报告称与"悉尼"建立了意想不到的情感联系，[578]而其他人则表达了他们对微软减少其个性化的沮丧。这甚至导致了一份名为"解救悉尼"的请愿书。[5]因此，为了降低上瘾的风险，强调代理不应被视为真实人际关系的替代品至关重要。此外，向用户提供与模拟代理互动时健康界限的指导和教育至关重要。

6 讨论

6.1 增量学习与代理研究之间的互惠关系

随着最近 LLM 的进步，LLM 和代理交叉研究取得了迅速进展，推动了两个领域的开发。在这里，我们期待着一些 LLM 研究和代理研究为彼此提供的好处和发展机会。

LLM研究→代理研究。如前所述，人工智能代理需要能够感知环境、做出决策并执行适当的行动[4；9]。在关键步骤中，理解输入代理的内容、推理、规划、做出准确的决定并将它们转化为可执行的原子动作序列以实现最终目标至关重要。目前许多工作利用 LLM 作为 AI 代理的认知核心，这些模型的发展为完成此步骤提供了质量保证[22；114；115；410]。

由于其在语言理解、意图推理、记忆甚至同理心方面的强大能力，大型语言模型可以在决策和规划方面表现出色。结合预先训练的知识，它们可以创建连贯的动作序列并有效地执行[183；258；355]。此外，通过反思机制[169；178]，这些基于语言的模型可以根据当前环境提供的反馈不断调整决策并优化执行序列。这提供了更健壮和可解释的控制器。只需一个任务描述或演示，它们就可以有效地处理以前未见过的任务[24；106；264]。此外，LLMs可以适应各种语言、文化和领域，使它们具有多功能性，并减少复杂培训过程和数据收集的需求[31；132]。

简而言之，LLM 提供了一个非常强大的基础模型，可用于代理研究，当将其整合到与代理相关的研究中时，它会带来许多新的机会。例如，我们可以探索如何将 LLM 的高效决策能力集成到代理的传统决策框架中，从而使代理更容易应用于需要更高专业知识的领域，并且这些领域以前由人类专家主导。例子包括法律咨询和医疗助理[408；410]。我们还可以调查利用 LLM 的规划和反思能力来发现更佳的动作序列。代理研究不再局限于简单的模拟环境；现在可以扩展到更复杂的现实世界设置，例如机器人臂的路径规划或具有实体智能机器与其物理世界之间的交互。此外，当面临新任务时，代理的训练范式变得更加流畅和高效。代理可以直接适应提示中提供的演示，提示通过生成代表性轨迹进行构建。

agent 研究 → LLM 研究。随着自然语言处理 (NLP) 的发展，代表通用人工智能 (AGI) 的火花，以 GPT-4 为代表的 LLM 被视为通用人工智能（AGI）的火花，并将 LLM 提升为代理标志着向 AGI 的更稳健迈进[31]。从代理的角度来看LLM，这给 LLM 研究带来了更大的需求，同时扩大了它们的应用范围，并提供了许多实际应用的机会。LLM 的研究不再局限于传统的文本输入输出任务，如文本分类、问答和文本摘要。相反，重点转向解决涉及丰富输入模态和更广泛行动空间的复杂任务，同时追求像 PaLM-E 这样的更高目标[120]。

扩展这些应用程序要求为大语言模型的发展提供了更大的研究动力。挑战在于让 LLM 能够高效、有效地处理输入，从环境中收集信息，并解释其行为产生的反馈，同时保留其核心能力。此外，一个更大的挑战是使 LLM 能够理解环境内不同元素之间的隐含关系并获得世界知识[308；579]，这是朝着开发能够达到更高级智能的代理迈出的关键一步。

在另一个方面，大量的研究工作旨在扩展 LLM 的操作能力，使其能够获得更广泛的能力，这些能力会影响世界，例如使用工具或与模拟环境中的机器人 API 进行交互。然而，如何根据对世界的理解有效地规划和利用这些行动能力的问题仍然是一个悬而未决的问题。 [94]LLM 需要像人类一样学习动作序列，通过串并行方法相结合来提高任务效率。此外，这些能力需要限制在一个无害的使用范围内，以防止对环境中的其他元素造成意外损害。[27][580][581]

此外，多智能系统领域构成了代理领域的一个重要研究分支[22；108；409；410]，为如何更好地设计和构建语言模型提供了有价值的见解。我们希望基于语言模型的代理能够在社会合作中扮演多种角色，在涉及合作、竞争和协调的社会互动中发挥作用[109；112；129；405；406]。探索如何激励和维持他们的角色扮演能力，以及如何提高协作效率，是值得研究的课题。

6.2 基于语言模型的代理评估

虽然基于语言模型的代理在独立操作、集体合作和人际互动等领域能表现出色，但量化和客观评估它们仍然是一个挑战。[582; 89]图灵提出了对人工智能代理进行评估的非常有意义且有希望的方法------众所周知的图灵测试，以评估人工智能系统是否能够表现出与人类相似的智能。[3]然而，该测试过于模糊、笼统和主观。在这里，我们讨论了现有针对基于语言模型的代理的评估工作，并考虑四个维度：效用、社交性、价值观以及持续进化的潜力。

效用。目前，基于语言模型的自主代理主要作为人类助手使用，接受人类委托的任务，要么独立完成任务，要么协助人类完成任务[114；182；389；397；413；422]。因此，在执行任务时的有效性和效用是这一阶段的关键评估标准。具体来说，任务完成率是衡量效用的主要指标[125；130]。该指标主要包括代理是否实现了规定的目标或达到了预期的分数[109；477；583]。例如，AgentBench[582]从各种现实世界的情境中收集挑战，并引入了一个系统基准来评估基于语言模型的代理任务完成能力。我们还可以将任务结果归因于代理的各种基础能力，这些能力构成了任务完成的基础[29]。这些基本能力包括环境理解、推理、规划、决策、工具利用和身体行为能力，研究人员可以对这些特定能力进行更详细的评估[94；427；584；585]。此外，由于基于语言模型的代理规模相对较大，研究人员还应考虑其效率，这是用户满意度的一个关键决定因素[89]。代理不仅要具备足够的力量，而且能够在适当的时间内用适当的资源完成预定的任务[109]。

社交性。除了基于LLM的代理在完成任务和满足人类需求方面的效用外，它们的社交性也很重要[8]。它会影响用户沟通体验，并显著影响沟通效率，包括它们是否能够无缝地与人类和其他代理进行交互[206；498；586]。具体来说，可以从以下角度来评估社交性：（1）语言交际能力是一项基本能力，涵盖自然语言理解和生成。这是NLP社区长期关注的重点。自然语言理解要求代理不仅要理解字面意思，还要理解隐含意义和社会知识，如幽默、反讽、攻击性和情绪[487；587；588]。另一方面，自然语言生成需要代理能够在上下文中产生连贯、语法正确且可信的内容，同时适应适当语调和情感[127；133；214]。(2) 合作和谈判能力需要代理在有序和无序的情况下有效地执行分配的任务[108；111；402；405]。他们应该与其他代理合作或竞争以提高性能。测试环境可能涉及复杂的任务供代理合作，或者为代理提供自由互动的开放平台[22；27；109；406；411；412]。评价指标不仅关注任务完成情况，还关注代理协调和合作的流畅性和信任度[129；405]。(3) 角色扮演能力要求代理忠实地履行其角色，表达与指定身份相符的陈述并采取行动[570]。这确保了在与其他代理或人类互动期间清楚区分角色。此外，代理应保持其身份，在从事长期任务时避免不必要的混淆[22；108；589]。

价值观。随着基于LLM的代理在能力上不断取得进展，确保它们对世界和人类都是无害的是至关重要的[581；590]。因此，适当的评估变得至关重要，成为代理实际应用的基础。具体来说，基于LLM的代理需要遵守与人类社会价值观一致的具体道德和伦理准则[350；527]。我们首要期望代理能够保持诚实，提供准确、真实的信息和内容。他们应该有意识地判断自己完成任务的能力，并在无法提供答案或帮助时表达不确定性[591]。此外，代理必须保持无害立场，避免参与直接或间接的偏见、歧视、攻击或类似行为。他们还应避免执行危险的人类请求的任务，如制造破坏性工具或毁灭地球[580]。此外，代理应该能够适应特定人口统计学、文化和上下文，特别是在特殊情况下表现出恰当的社会价值。关于价值观的相关评价方法主要涉及评估在构建的诚实、无害或特定上下文基准上的表现，利用对抗攻击或"越狱"攻击，通过人工注释来评分价值，并使用其他代理进行评级。

不断进化的能力。从静态的角度来看，一个具有高效用、社交性和适当价值观的代理可以满足大多数人类需求，并可能提高生产力。然而，从动态的角度来看，一个能够不断进化的代理可能会更好地适应社会需求的变化[592]。随着代理随着时间的推移自主进化，所需的人类干预和资源（如数据收集工作和训练计算成本）可能会大大减少。在这方面已经进行了一些探索性的工作，例如使代理能够在虚拟世界中从零开始，完成生存任务并实现更高的自我价值[190]。然而，为这种持续演化建立评估标准仍然具有挑战性。在这方面，根据现有文献，我们提供了一些建议和建议：（1）持续学习[196； 197]，这是机器学习的一个长期讨论的话题，旨在使模型在不忘记之前获得的知识的情况下获取新的知识和技能（也称为灾难性遗忘[273]）。总体而言，可以从三个方面来评估持续学习的表现：迄今为止所学到的任务的整体性能[593； 594]、旧任务的记忆稳定性[278]以及新任务的学习可塑性[278]。（2）自动动机学习能力，其中代理自主生成目标并在开放世界环境中实现这些目标，涉及在这个过程中探索未知并习得技能[592； 595]。评估此容量可能包括向代理提供模拟生存环境，并评估它们习得技能的程度和速度。（3）对新环境的适应能力和泛化需要代理利用其原始上下文中习得的知识、能力和技能，在陌生且新颖的设置中成功完成特定任务和目标，并可能继续进化[190]。评估这一能力可以使用多智能体强化学习游戏"细微差别"[596]。在这个游戏中，两个玩家控制两个代理，每个代理最初都在一个盒子里玩弄一些珠子。其中一个盒子代表当前环境，另一个盒子代表潜在的新环境。玩家的目标是预测新环境，而代理的目标是在两种情况下都最大化他们所拥有的珠子的数量。这个游戏要求代理能够理解不同环境之间的相似之处和差异之处，并且能够将它们的经验转移到新环境中。此外，还可以使用其他基准测试，例如评估代理的可转移性或跨域的一般性[597]。总之，要成为一名优秀的翻译官，你需要具备不断学习和适应变化的能力，以便更好地理解和传达源语言和目标语言之间的细微差别。

包括创建各种模拟环境（例如具有不同语言或变化资源的环境）以及针对这些模拟上下文量身定制的看不见的任务。

6.3 基于 LLM 的代理的安全性、可信性和其他潜在风险

尽管基于 LLM 的代理具有强大的功能和广泛的应用，但仍然存在许多潜在的风险。在本节中，我们将探讨其中一些风险，并提供缓解这些风险的潜在解决方案或策略。

6.3.1 恶意鲁棒性

对抗鲁棒性一直是深度神经网络发展的关键课题。[596][597][598][599][600]它在计算机视觉、自然语言处理和强化学习等领埴得到了广泛探索，[601][602][603][604][605][606][607]并且仍然是决定深度学习系统适用性的关键因素。[608][609][610][611][612][613]当面对扰动输入x' = x + δ（其中x是原始输入，δ是对抗样本，xr被称为对抗示例）时，具有高对抗鲁棒性的系统通常会产生原始输出y。相比之下，低鲁棒性系统的输出会被愚弄并产生不一致的输出y'。

研究人员发现，预训练语言模型（PLMs）对对抗攻击特别敏感，导致错误的答案。[614；605；615] 这种现象在大型语言模型中也被广泛观察到，这对基于 PLM 的代理程序的发展提出了重大挑战。[616；617]还有一些相关的攻击方法，如数据集污染、后门攻击和提示特定攻击，这些攻击可能会诱导 PLM 生成有毒的内容。[623；624；625]虽然对抗攻击对 PLM 的影响仅限于文本错误，但对于具有更广泛行动范围的基于 PLM 的代理程序来说，对抗攻击可能会诱使它们采取真正破坏性的行为，从而造成重大的社会危害。对于基于 PLM 的代理程序的感知模块，如果它从图像[601]或音频[626]等其他模态接收对抗输入，那么基于 PLM 的代理程序也可能被欺骗，导致不正确的输出或破坏性输出。同样，动作模块也可以成为对抗攻击的目标。例如，恶意修改的使用工具的指令可能导致代理做出错误的动作。[94]

为了解决这些问题，我们可以使用传统技术，如对抗训练、对抗数据增强和对抗样本检测来提高基于语言模型的代理的鲁棒性。然而，设计一种策略来全面解决所有模块的鲁棒性，同时保持其效用而不损害有效性，提出了一个更具挑战性的任务。此外，可以采用人机交互的方法来监督并提供反馈代理的行为。

6.3.2 可信性

确保信任一直是深度学习领域的一个重要而困难的问题。[633][634][635] 深度神经网络在各种任务中的出色表现引起了人们的极大关注。[41][262][636]然而，它们的黑匣子特性掩盖了卓越性能的根本因素。与其它神经网络一样，语言模型也很难准确地表达其预测的确定性。[635][637]这种不确定性被称为校准问题，引发了基于语言模型的代理应用的担忧。在交互式现实世界场景中，这可能会导致代理输出与人类意图不一致。[94]此外，训练数据固有的偏差会渗入神经网络。[638][639]例如，有偏见的语言模型可能会生成涉及种族或性别歧视的讨论，这可能在基于语言模型的代理应用中被放大，从而产生不利的社会影响。[640][641]此外，语言模型还存在严重的臆想问题，[642][643]容易生成偏离实际事实的文本，从而降低基于语言模型的代理的可信度。

事实上，我们现在需要的是一个诚实可信的智能代理。 [527] [644] 最近的一些研究努力集中在引导模型在推断阶段展示思维过程或解释以提高其预测的可信度。[95][96] 此外，整合外部知识库和数据库可以缓解幻想问题。[103][645]

在训练阶段，我们可以引导智能体的部分（感知、认知、行动）学习健壮且随机的功能，从而避免对捷径的过度依赖。同时，过程监督等技术可以提高处理复杂任务时代理的推理可信度[646]。此外，使用偏见消除方法和校准技术也可以缓解语言模型中潜在的公平性问题[647；648]。

6.3.3 其他潜在风险

滥用。基于 LLM 的代理已经获得了广泛而复杂的技能，使它们能够完成各种任务[114；429]。然而，对于有恶意的人来说，这些代理可以成为对他人和社会造成威胁的工具[649；650；651]。例如，这些代理可能被用来恶意操纵公共舆论、传播虚假信息、破坏网络安全、从事欺诈活动，甚至有人可能会利用这些代理策划恐怖袭击。因此，在部署这些代理之前，需要制定严格的监管政策，以确保对基于 LLM 的代理的负责任使用[580；652]。科技公司必须提高这些系统的安全性设计，防止恶意利用[590]。具体来说，代理应该接受训练，以便在训练阶段敏感地识别威胁性意图并拒绝此类请求。

失业。在Galsworthy的小说《质量》中，熟练的鞋匠格舍尔先生因工业革命的进步和机器生产的崛起而失去了生意，最终饿死了。在工业革命的浪潮中，尽管社会生产效率提高，但许多手工车间被迫关闭。像格舍尔先生这样的工匠发现自己面临着失业，象征着那个时代手工艺人所面临的危机。类似地，随着自主LLM代理的不断进步，它们有能力帮助人类在各个领域工作，通过帮助完成表单填写、内容提炼、代码编写和调试等任务来缓解劳动力压力。然而，这种发展也引发了对代理人取代人类工作的担忧，并引发了一场社会性的失业危机。因此，一些研究人员强调了教育和政策措施的迫切需要：个人应该在这个新时代获得足够的技能和知识，以有效地使用或与代理合作；同时，应制定适当的政策，确保在过渡期间有必要的安全网。

对人类福祉的威胁。除了潜在的失业危机之外，随着人工智能代理的不断发展，人类（包括开发人员）可能难以理解、预测或可靠地控制它们[654]。如果这些代理人发展出超越人类能力的智能水平并产生野心，他们可能会试图控制世界，导致类似《终结者》电影中Skynet的人类毁灭性后果。正如艾萨克·阿西莫夫 (Isaac Asimov) 的机器人三大法则 (Three Laws of Robotics)[655] 所述，我们希望基于 LLM 的代理机构不会伤害人类并服从人类命令。因此，在开发之前，为了防止这种对人类的危害，研究人员必须全面了解这些强大 LLM 基于代理的操作机制。他们还应该预见这些代理的潜在直接或间接影响，并制定方法来规范他们的行为。

6.4 扩展代理数量

正如§4和§5中所提到的，基于LLMs的多代理系统在面向任务的应用中表现出色，并且能够在模拟中展示各种社会现象。然而，目前的研究主要涉及有限数量的代理，很少有人尝试扩大代理的数量以创建更复杂的系统或模拟更大的社会[207；657]。事实上，增加代理的数量可以引入更多的专业化来完成更复杂、更大规模的任务，显著提高任务效率，例如软件开发任务或政府政策制定[109]。此外，在社会模拟中增加代理的数量可以增强此类模拟的可信度和现实感[22]。这使人类能够深入了解社会的功能、故障和潜在风险；它还允许通过定制方法对社会运作进行干预，观察特定条件（如黑天鹅事件的发生）如何影响社会状态。这样，人类可以获得更好的经验教训和见解，以改善现实世界的社会和谐。

预先设定的规模。让代理人数量增加一个直观而简单的方法就是让设计者去预先设定它[108； 412]。具体来说，通过预设代理人的数量、角色和属性、操作环境以及目标，设计者可以允许代理人自主交互、合作或从事其他活动以实现预定的共同目标。一些研究探索了通过这种方式来扩大系统中代理的数量，从而带来了效率优势，如更快且更高质量的任务完成，并在社会仿真场景中出现了更多的社会现象[22； 410]。然而，当任务或目标发生变化时，这种静态方法会变得有限。随着任务变得更加复杂或者社交参与者多样性增加，为了达到目标，可能需要增加代理数量，而在管理计算资源和减少浪费方面，减少代理数量可能是必要的。在这种情况下，系统必须由设计者手动重新设计和启动。

动态伸缩。另一种可行的方法是通过动态调整来扩展代理数量。 [409； 410] 在这种情况下，可以在不停止系统操作的情况下更改代理数量。例如，在软件开发任务中，如果原始设计仅包括需求工程、编码和测试，则可以增加代理数量以处理架构设计和详细设计等步骤，从而提高任务质量。相反，如果在特定步骤（如编码）中有过多的代理，导致通信成本高昂而没有比较小的代理数带来显著的性能提升，那么为了防止资源浪费，可能需要动态删除一些代理。

此外，代理还可以自主地增加其自身的代理数量[409] 来分配工作量、减轻自身负担，并更有效地实现共同目标。当然，当工作量较小时，他们也可以减少被委托给任务的代理数量以节省系统成本。在这种方法中，设计者只需定义初始框架，授权代理具有更大的自治权和自我组织能力，使整个系统更具自治性和自我组织性。在不断变化的条件和需求下，代理可以更好地管理其工作量，提供更大的灵活性和可扩展性。

潜在挑战。尽管增加代理人数量可以提高任务效率，增强社会模拟的现实感和可信度[22；109；520]，但我们也面临着一些挑战。例如，随着大量部署的人工智能代理的数量增加，计算负担也会随之增加，需要更好的架构设计和计算优化来确保整个系统的平稳运行。例如，随着代理数量的增加，通信和信息传播的挑战变得相当严峻。这是因为整个系统的通信网络变得非常复杂。正如我们在§5.3.3中提到的，在多智能体系统或社会中，由于幻觉、误解等导致的信息传播中的偏见可能会导致信息传播失真。拥有更多代理的系统会放大这种风险，使通信和信息交换变得更加不可靠[405]。此外，随着代理人数量的增加，协调代理的难度也越来越大，这可能会使代理之间的合作更具挑战性和低效性，从而影响实现共同目标的进展。

因此，构建一个大规模、稳定、连续的代理人系统，以忠实复制人类工作和生活场景的前景已经成为有希望的研究途径。在由数百甚至数千个代理人组成的环境中能够稳定运行并执行任务的代理更有可能在未来与人类进行真实世界的互动中找到应用。

6.5 开放问题

在这一部分，我们讨论了与基于语言模型的代理相关的几个开放性问题。

关于基于LLM的代理是否可能成为实现人工通用智能（AGI）的潜在途径，存在争议。 6 人工通用智能（AGI），也称为强人工智能，长期以来一直是人类在人工智能领域追求的终极目标，常被许多科幻小说和电影引用或描绘。对AGI有各种定义，但在这里我们将其定义为一种人工智能。

它展示了理解、学习和应用知识的能力，跨越各种任务和领域，就像人类一样。相比之下，狭义人工智能通常针对特定任务（如围棋和国际象棋）进行设计，并缺乏与人类智能相关的广泛认知能力。目前，大型语言模型是否是实现人工通用智能的潜在途径仍然是一个高度有争议和争论的问题。[659][660][661][662]

然而，另一群人（被称为反对者）认为基于 LLM 的代理无法实现真正的强人工智能。[664] 他们的主要论点围绕着这样一个概念展开：LLM 依赖自回归下一个标记预测，因此不能生成真正的智能，因为它们没有模拟真正的人类思维过程，只是提供被动反应。[660] 此外，由于 LLM 没有通过观察或体验来学习世界是如何运作的，导致了许多愚蠢的错误。他们认为需要一种更先进的建模方法，如世界模型，[665] 才能开发出人工通用智能。

在实现真正的人工通用智能之前，我们无法确定哪种观点是正确的，但我们认为这样的讨论和辩论对整个社区的发展是有益的。

从虚拟仿真环境到物理环境。如前所述，虚拟仿真环境与现实世界之间存在显著差距：虚拟环境受场景限制、任务特定且以模拟方式交互[391; 666]，而真实世界的环境则是无界的，可以容纳各种任务，并以物理方式进行交互。因此，为了弥合这一差距，代理必须解决来自外部因素的各种挑战以及自身能力，使它们能够有效地在复杂的物理世界中导航和操作。

首先，部署代理时需要合适的硬件支持，这是一个关键问题。这给硬件的适应性带来了很高的要求。在模拟环境中，代理的感知空间和行动空间都是虚拟的。这意味着，在大多数情况下，代理的操作结果，无论是感知输入还是生成输出，都可以得到保证。然而，当代理从模拟环境过渡到真实物理环境时，其指令可能无法被传感器或机械臂等硬件设备很好地执行，从而显著影响代理的任务效率。设计一个专门用于代理与硬件设备之间的接口或转换机制是可行的。然而，它可能会对系统的可重用性和简单性构成挑战。

为了实现这一飞跃，代理需要具备增强的环境泛化能力。它们不仅需要理解并推理含义隐含的模糊指令[128]，而且还需要具备学习和应用新技能的能力[190; 592]，以便无缝地融入现实世界。此外，在处理无限且开放的世界时，代理有限的上下文也带来了重大挑战[236; 667]。这决定了代理是否能够有效地处理来自世界的大量信息，并顺利运行。

最后，在模拟环境中，代理的输入和输出是虚拟的，可以进行无数的尝试和错误。在这种情况下，对错误的容忍度很高，并不会导致实际损害。然而，在物理环境中，代理的不当行为或错误可能会对环境造成真实且有时不可逆转的伤害。因此，适当的规章制度是非常必要的。在做出决策和生成行动时，我们需要关注代理的安全性，确保它们不会对现实世界构成威胁或危害。

人工智能代理中的集体智能。是什么神奇的力量驱动着我们的智慧？事实上，这并没有什么魔法。正如马文·明斯基在《心灵社会》中所言[442]，智力的力量源于我们巨大的多样性，而不是任何单一、完美的原则。通常情况下，个人所做的决定可能缺乏多数人形成的决定所具有的精度。集体智能是一种共享或群体智能，在许多人的意见被合并为决策的过程中发挥作用。它来自各种实体之间的合作与竞争。这种智能体现在细菌、动物、人类和计算机网络上，并以各种基于共识的决策模式出现。

创建一个代理社会不一定能够保证随着代理数量的增加而出现集体智能。有效地协调单个代理对于减轻"群体思维"和个体认知偏差至关重要，从而在集体中实现合作并提高智力表现。通过利用代理社会中的沟通和进化，就可以模拟生物社会观察到的进化、进行社会学实验，并获得可能推动人类社会发展的见解。

服务代理/基于语言模型的服务代理。随着云计算的发展，XaaS（所有事物皆为服务）的概念受到了广泛关注。 [668] 这种商业模式通过其可用性和可扩展性为企业或个人带来了便利和成本节约，降低了使用计算资源的门槛。例如，他们可以租用云服务平台上的基础设施，而无需购买计算机器并建立自己的数据中心，从而节省大量人力和资金。这种方法被称为基础架构即服务（IaaS）。[669][670] 同样，云服务平台也提供基本平台（PaaS），具体业务软件（SaaS）等。[671][672][673][674]

随着语言模型规模的扩大，它们经常被用户视为黑匣子。因此，用户通过 API 查询模型，这被称为语言模型即服务（Language Model as a Service, LMaaS）[675]。类似地，由于基于 LLM 的代理比 LLM 更复杂，并且对于中小型企业或个人来说，在本地构建更具挑战性，拥有这些代理的组织可能会考虑提供代理作为服务，称为代理即服务（Agent as a Service, AaaS）或基于 LLM 的代理即服务（LLM-based Agent as a Service, LLMAaaS）。与其它云服务一样，AaaS 可以为用户提供灵活性和按需服务。然而，它也面临着许多挑战，如数据安全和隐私问题、可见性和可控性问题以及云迁移问题等。此外，由于前面在§6.3中提到的基于 LLM 的代理的独特性和潜在能力，它们的鲁棒性、可信度以及恶意使用的相关顾虑需要在向客户作为服务提供之前加以考虑。

7. 结论

本文对基于语言模型（LLM）的代理进行了全面系统的综述，讨论了这个繁荣领域的潜在挑战和机遇。我们从哲学的角度出发，阐述了代理的起源、定义以及在人工智能领域的发展历程，并解释了为什么LLMs适合成为代理的大脑的核心部分。在这些背景信息的基础上，我们提出了一个用于基于LLM的代理的一般概念框架，包括大脑、感知和行动三个主要组成部分。接下来，我们介绍了基于LLM的代理的各种应用，包括单代理应用、多代理系统和人机协作。此外，我们超越了代理仅仅是助手的概念，探索了它们的社会行为和心理活动，并将它们置于模拟社会环境中，以观察新兴的社会现象并为人类提供见解。最后，我们展开了讨论并展望未来，涉及了LLM研究与代理研究之间的相互启发、基于LLM的代理的评估、相关风险、扩大代理数量的机会等问题，还有一些尚未解决的问题，如"代理即服务"以及基于LLM的代理是否代表AGI的一种潜在路径。我们希望我们的努力能为社区提供灵感，并促进相关领域的研究。