题目
基于大语言模型的Agent的兴起与发展前景
论文地址:https://arxiv.org/pdf/2309.07864.pdf
项目地址:https:/github.com/WooooDyy./LLM-Agent--Paper-List
摘要
长期以来,人类一直在追求等同于或超越人类水平的人工智能(A),AI代理被认为是这一追求的有前途的载体。人工智能代理是感知环境、做出决策并采取行动的人工实体。已经进行了许多努力来开发智能代理,但它们主要集中在算法或训练策略的改进上,以增强特定任务的特定能力或性能。实际上,社区所缺乏的是一个通用的、强大的模型,作为设计能够适应不同场景的A代理的起点。由于大型语言模型(LLM)所表现出的多功能性,它们被认为是人工通用智能(AG)的潜在火花,为构建通用人工智能主体提供了希望。许多研究者利用LLM作为构建人工智能代理的基础,并取得了显著的进展。本文对基于LLM的Agent进行了全面的综述。首先,我们将追溯Agenti的概念,从它的哲学起源到它在人工智能中的发展,并解释为什么LLM是Agenti的合适基础。在此基础上,我们提出了一个基于LLM的智能体的通用框架,该框架包括三个主要部分:大脑、感知和动作,并且该框架可以针对不同的应用进行定制。随后,从单Agent场景、多Agent:场景和人-Agent协作三个方面探讨了基于LLM的Agent的广泛应用。接下来,我们将深入研究代理人社会,探索基于LLM的代理人的行为和个性,从代理人社会中出现的社会现象,以及它们为人类社会提供的见解。避免和干扰利用的可行方法,最后总结全文并给出了该领域的若干开放性问题.https:/github.com/WooooDyy./LLM-Agent--Paper-List上有相关论文的资料库。
介绍
"如果他们找到一只什么都能回答的鹦鹋,我会毫不犹豫地说它是智慧生物。"--丹尼斯·狄德罗
1875年人工智能是一个致力于设计和开发能够复制类人智能和能力的系统的领域。早在18世纪,哲学家狄德罗(Denis Diderot)就提出了这样一个观点:如果一只鹦鹉能回答每一个问题,它就可以被认为是聪明的。虽然狄德罗指的是像鹦鹉这样的生物,但他的概念强调了一个深刻的概念,即高度智能的有机体可以类似于人类的智能。在20世纪50年代,Alan Turing将这一概念扩展到人工实体,并提出了著名的图灵测试。这项测试是A的基石,旨在探索机器是否能表现出与人类相当的智能行为。这些人工智能实体通常被称为"代理",形成了人工智能系统的基本构建块。通常在人工智能中,代理是指一个人工实体,它能够使用传感器感知周围环境,做出决策,然后使用执行器做出响应。代理的概念起源于哲学,其根源可以追溯到亚里士多德和休谟等思想家。它描述了拥有欲望、信念、意图和行动能力的实体。这一想法后来发展成计算机科学,旨在使计算机能够理解用户的兴趣,并代表他们自主地执行操作。
随着人工智能的发展"代理人"在人工智能研究中找到了自己的位置,用来描述表现出智能行为并拥有自主性、反应性、主动性和社交能力等品质的实体。从那时起,智能体的探索和技术进步就成为人工智能领域的焦点。人工智能代理现在被认为是实现人工通用智能(AGI)的关键一步,因为它们包含了广泛的智能活动的潜力。
从20世纪中期开始,随着对智能人工智能代理设计和改进的深入研究,智能人工智能代理的开发取得了重大进展。然而,这些努力主要集中在提高特定能力,如符号推理,或掌握特定任务,如围棋或国际象棋。在各种不同的情况下实现广泛的适应性仍然是一件难以实现的事情。此外,之前的研究更多地强调算法和训练策略的设计,而忽略了模型固有的一般能力的发展,如知识记忆、长期规划、有效泛化和有效交互。实际上,增强模型的内在能力是进一步发展Agent的关键因素,而该领域需要一个强大的基础模型来作为Agent系统的出发点,该模型具有上述的各种关键属性。
大型语言模型(LLM)的发展为Agenti的进一步发展带来了一线希望,并且该社区已经取得了重大进展。根据世界范围的概念,它包括五个层次,描述了从自然语言处理到一般人工智能的研究进展(即,语料库、互联网、感知、具体化和社会化),纯LLM建立在第二个层次上,具有互联网规模的文本输入和输出。尽管如此,LLM在知识获取、指令理解、概括、规划和推理方面表现出了强大的能力,同时展示了与人类有效的自然语言交互。这些优势为LLM赢得了AGI的火花称号,使其成为构建智能代理以培育人类和代理和谐共存的世界的高度理想选择。由此出发,如果我们将LLMs提升到Agent的地位,并赋予它们扩展的感知空间和动作空间,它们就有可能达到WS的第三、四个层次。此外,这些基于LLMs的Agent可以通过合作或竞争来处理更复杂的任务,并且当它们放在一起时可以观察到涌现的社会现象,有可能达到WS的第五个层次。如图1所示,我们设想了一个由人工智能代理组成的和谐社会,人类也可以参与其中。
图1:一个由人工智能代理组成的社会场景,人类也可以参与其中。上图描绘了社会中的一些具体场景。在厨房里,一个代理点餐,另一个代理负责计划和解决烹饪任务。在音乐会上,三个经纪人合作组成一个乐队表演。在户外,两个代理商正在讨论灯笼的制作,计划所需的材料,并通过选择和使用工具的资金。用户可以参与此社交活动的任何这些阶段。
本文对基于LLM的智能体进行了全面、系统的综述,试图对这一新兴领域的研究现状和未来发展方向进行探讨。为此,我们从深入研究关键的背景信息开始。特别是,我们首先追溯了从哲学到人工智能领域的人工智能主体的起源,沿着简要概述了围绕着人工因素存在的争论的范围内。接下来,我们将从技术趋势的透镜来简要回顾一下人工智能代理的发展历史。最后,我们深入介绍了智能体的基本特征,并阐明了为什么大型语言模型非常适合作为智能体的大脑或控制器的主要组成部分,受Agent定义的启发,本文提出了一个基于LLM的Agent的一般概念框架,该框架包括三个关键部分:大脑、感知和动作,并且该框架可以根据不同的应用进行定制。
我们首先介绍大脑,它主要由一个大的语言模型组成。与人类类似,大脑是人工智能主体的核心,因为它不仅存储重要的记忆、信息和知识,而且还承担信息处理、决策、推理和规划等基本任务。它是Aget能否表现出智能行为的关键决定因素。接下来,我们介绍感知模块。对于一个代理人来说,这个模块的作用类似于人类的感觉器官。它的主要功能是将主体的感知空间从纯文本扩展到多模态空间,包括文本、声音、视觉、触觉、嗅觉等多种感官模态。这种扩展使代理能够更好地感知来自外部环境的信息。最后,我们给出了扩展Agnt行为空间的行为模型。具体来说,我们期望代理能够拥有文本输出、采取具体行动和使用工具,以便它能够更好地响应环境变化并提供反馈,甚至改变和塑造环境。
在此基础上,详细介绍了基于LLM的智能体的实际应用,并阐述了基于LLM的智能体的基本设计追求-"善用人工智能"。首先,我们将深入探讨单个智能体的当前应用,并讨论它们在基于文本的任务和模拟探索环境中的性能,重点介绍它们在处理特定任务、推动创新以及展示人类生存技能和适应性方面的能力的范围内。
在此基础上,我们回顾了多智能体的发展历史。本文介绍了基于LLM的多智能体系统中智能体之间的交互,它们参与了合作、谈判或竞争。不管互动的模式如何,行为人都会集体地朝着一个共同的目标努力最后,考虑到基于LLM的智能体在隐私安全、伦理约束和数据不足等方面的潜在局限性,讨论了人智能体协作问题。我们总结了代理人和人之间协作的范式:指导者-执行者范式和平等伙伴关系范式,沿着在实践中的具体应用。
在探索基于LLM的Agent的实际应用的基础上,我们现在将重点转移到"Agent:社会"的概念上,研究Aget与其周围环境之间复杂的交互作用。本节首先研究这些代理人是否表现出类人行为并具有相应的人格。此外,我们还介绍了Agent:运行的社会环境,包括基于文本的环境、虚拟沙箱和物理世界。与上一节不同,这里我们将关注不同类型的环境,而不是主体如何感知环境。在建立了主体及其环境的基础之后,我们将继续揭示由主体形成的模拟社会。我们将讨论模拟社会的构建,并接着考察由此产生的社会现象,特别是强调模拟社会中固有的教训和潜在的风险。
最后,我们讨论了基于LLM的Agent领域中的一系列关键主题和开放问题:
- LLM研究和Agenti研究的互惠和启发,其中我们证明了基于LLM的Agenti的发展为Agent和LLM社区提供了许多机会。
- 从效用、社会性、价值观和持续进化能力四个维度对基于LLM的Agent的现有评估工作和一些展望。
- 基于LLM的Agentr的潜在风险,其中我们讨论了基于LLM的Agent的对抗鲁棒性和可信性。
- 我们还讨论了其他一些风险,如滥用、失业和对人类福祉的威胁增加代理人数量,其中我们讨论了增加代理人数量的潜在优势和挑战,沿着预先确定和动态调整的方法。
- 几个公开的问题,例如关于基于LLM的Agent是否代表了通向AG引的潜在途径的争论,从虚拟模拟环境到物理环境的挑战,Al Agent中的集体智能,以及Agentl即服务。希望本文能对相关领域的研究者和实践者有所启发。
背景
在本节中,我们将提供重要的背景信息,为后续内容奠定基础。我们首先讨论人工智能主体的起源,从哲学到人工智能领域,再讨论有关人工主体存在的论述。随后,我们从技术趋势的透镜对人工智能Agent的发展进行了总结。最后,我们介绍了智能体的关键特征,并说明了为什么LLM适合作为AI智能体大脑的主要部分
Al Agent的起源"代理人"是一个历史悠久的概念,在许多领域都有过探索和阐释。在这里,我们首先探讨它在哲学上的起源,讨论人造产品是否可以拥有哲学意义上的能动性,并考察相关概念是如何被引入人工智能领域的。代理哲学。代理人的核心思想在哲学讨论中有着历史背景,其根源可以追溯到亚里士多德和休谟等有影响力的思想家。在一般意义上,"代理人"是具有行为能力的实体,"代理"一词表示这种能力的行使或表现。狭义上,"能动性"通常是指有意行为的表现:相应地,"主体"一词是指拥有欲望、信念、意图和行动能力的实体。注意,代理不仅可以包括个人,还可以包括物理和虚拟世界中的其他实体。重要的是,代理人的概念涉及个体自主性,赋予他们行使意志、做出选择和采取行动的能力,而不是被动地对外部刺激做出反应。
从哲学的角度看,人工实体是否具有能动性?从一般意义上说,如果我们将代理定义为有行动能力的实体,那么人工智能系统确实表现出一种代理形式。然而,"施动者"一词更常用于指拥有意识、意向性和行动能力的实体或主体。在这个框架内,目前还不清楚人工系统是否可以拥有代理,因为它仍然不确定它们是否拥有内部状态,这些状态构成了归因于欲望,信仰和意图的基础。有些人认为,将意图等心理状态归因于人工代理是一种拟人化的形式,缺乏科学严谨性。正如Barandiaran等人所言:"对能动性要求的具体化告诉我们,人工形式的能动性的发展还需要多少。相反,也有研究人员认为,在某些情况下,采用意向立场(即根据意图解释代理行为)可以提供对人工代理行为的更好描述,解释和抽象,就像对人类所做的那样。
随着语言模型的进步,人工有意代理的潜在出现似乎更有希望。从严格意义上讲,语言模型只是作为条件概率模型,使用输入来预测下一个标记。与此不同的是,人类结合了社会和感知背景,并根据他们的心理状态说话。因此,一些研究人员认为,当前的语言建模范式与智能体的故意行为不兼容。然而,也有研究人员提出,语言模型在狭义上可以充当代理模型。他们认为,在基于上下文的下一个词预测的过程中,当前的语言模型有时可以推断出生成上下文的代理所持有的信念,desrresi和意图的近似,部分表示。有了这些表示,语言模型就可以像人类一样生成话语。为了支持他们的观点,他们进行实验以提供一些经验证据。
将代理引入AI。令人惊讶的是,主流A!社区的研究人员在20世纪80年代中后期之前对与代理相关的概念关注相对较少。然而,从那时起,计算机科学和人工智能社区对这个主题的兴趣显著增加。正如Wooldridge等人所述,我们可以定义人工智能,说它是计算机科学的一个子领域,旨在设计和构建基于计算机的代理,表现出智能行为的各个方面。所以我们可以治疗。
"智能体"是人工智能的核心概念。当智能体的概念引入人工智能领域后,其含义发生了一些变化。在哲学领域,主体可以是人、动物,甚至是具有自主性的概念或实体。然而,在人工智能领域,智能体是一个计算实体。由于意识和对计算实体的渴望等概念的形而上学性质,并且考虑到我们只能观察机器的行为,许多人工智能研究人员,包括艾伦·图灵,建议暂时搁置代理是否"实际上"思考或字面上拥有"思想"的问题。相反,研究人员使用其他属性来帮助描述代理,例如自主性,反应性,主动性和社交能力。也有研究人员认为,智力是"在旁观者的眼晴";它不是一个天生的,孤立的财产。从本质上讲,人工智能主体并不等同于哲学主体;相反,它是人工智能背景下主体的哲学概念的具体化。在本文中,我们将A代理视为人工实体,这些实体能够使用传感器感知其周围环境,做出决策,然后使用执行器做出响应。
智能主体的发展经历了几个阶段,在这里,我们采取技术趋势的透镜来简要回顾其发展。象征性代理。在人工智能研究的早期阶段,主要采用的方法是符号人工智能,其特点是依赖于符号逻辑。该方法使用逻辑规则和符号表示来封装知识并促进推理过程。早期的人工智能代理就是基于这种方法建立起来的,它们主要关注两个问题:转导问题和表示/推理问题。这些代理旨在模仿人类的思维模式。它们具有明确的和可解释的推理框架,由于其象征性的性质,他们表现出高度的表达能力。这种方法的一个典型例子是基于知识的专家系统。然而,符号代理人在处理不确定性和大规模现实世界问题方面面临局限性。此外,由于符号推理算法的复杂性,找到一种能够在有限时间内产生有意义结果的有效算法是具有挑战性的反应性代理。与符号主体不同,反应主体不使用复杂的符号推理。相反,它们主要关注智能体与其环境之间的交互,强调快速和实时响应。这些智能体主要基于感觉-动作回路,有效地感知环境并对环境做出反应。这种智能体的设计优先考虑直接的输入-输出映射,而不是复杂的推理和符号运算。然而,反应性试剂也有局限性。它们通常需要更少的计算资源,从而实现更快的响应,但它们可能缺乏复杂的高层决策和规划能力。
基于强化学习的代理。随着计算能力和数据可用性的提高,沿着人们对模拟智能代理与其环境之间的交互越来越感兴趣,研究人员已经开始利用强化学习方法来训练代理以处理更具挑战性和复杂的任务。该领域的主要关注点是如何使智能体能够通过与环境的交互来学习,使它们能够在特定任务中获得最大的累积奖励。最初,强化学习(RL)代理主要基于策略搜索和值函数优化等基本技术,例如Q学习和SA。随着深度学习的兴起,深度神经网络和强化学习的集成,即深度强化学习(DRL),已经出现。这使得智能体能够从高维输入中学习复杂的策略,从而取得了许多重大成就,如AlphaGO和DQN。这种方法的优点在于它能够使智能体在未知的环境中自主学习,而无需明确的人为干预。这使得它可以广泛应用于一系列领域,从游戏到机器人控制等等。尽管如此,强化学习面临着训练时间长、样本效率低和稳定性问题等挑战,特别是在复杂的现实环境中应用时。
具有迁移学习和Mta学习的智能体。传统上,训练强化学习代理需要巨大的样本量和较长的训练时间,并且缺乏泛化能力。因此,研究人员引入了迁移学习来加快代理对新任务的学习。迁移学习减轻了新任务的培训负担,促进了不同任务之间的知识共享和迁移,从而提高了学习效率,性能和泛化能力。此外,元学习也被引入人工智能代理。元学习专注于学习如何学习,使智能体能够从少量样本中快速推断新任务的最佳策略。这样的代理,当面临一个新的任务,可以迅速调整其学习方法,通过利用获得的一般知识和政策,从而减少对大量的样本的依赖。然而,当源任务和目标任务之间存在显着差异时,迁移学习的有效性可能达不到预期,并且可能存在负迁移。此外,Mta学习所需的大量预训练和大样本量使得很难建立通用的学习策略。
基于语言模型的大型代理。由于大型语言模型已经展示出令人印象深刻的涌现能力,并获得了极大的普及,研究人员已经开始利用这些模型来构建代理。具体来说,他们采用LLM作为大脑的主要组成部分或这些代理的控制器,并通过多模态感知和工具利用等策略扩展其感知和动作空间。这些基于LLM的代理可以通过思想链(COT)和问题分解等技术表现出与符号代理相当的推理和规划能力。他们还可以通过从反馈中学习并执行新的动作来获得与环境的交互能力,类似于反应式代理。类似地,大型语言模型在大规模语料库上进行预训练,并展示了少量和零次泛化的能力,允许在任务之间无缝转移,而无需更新参数。基于LLM的代理已被应用于各种现实世界的场景,例如软件开发和科学研究。由于它们的自然语言理解和生成能力,它们可以彼此无缝地交互,从而引起多个智能体之间的协作和竞争。此外,研究表明,允许多个行为体共存会导致社会现象的出现。
为什么LLM适合作为Agent大脑的主要组成部分?如前所述,研究人员已经引入了几个属性来帮助描述和定义人工智能领域的代理。在这里,我们将深入研究一些关键的性质,阐明它们与LLM的相关性,并由此阐述为什么LLM非常适合作为AI智能体大脑的主要部分。自治自主性意味着一个主体在不受人类或他人直接干预的情况下运作,并对其行为和内部状态拥有一定程度的控制。这意味着一个智能体不仅应该具有遵循明确的人类指令完成任务的能力,而且应该具有独立发起和执行动作的能力。LLM可以通过其生成类人文本、参与对话和执行各种任务的能力来证明某种形式的自主性,而无需详细的分步说明。此外,它们可以根据环境输入动态调整其输出,反映出一定程度的适应性自主性。此外,他们还可以通过展示创造力来展示自主性,比如提出新颖的想法、故事或解决方案,而这些想法、故事或解决方案并没有被明确地编入他们的程序。这意味着一定程度的自我探索和决策。Auto-GPT等应用程序说明了LLM在构建自主代理方面的巨大潜力。只需向他们提供一项任务和一套可用的工具,他们就可以自主制定计划并执行,以实现最终目标。
有反应性。主体的反应性是指其对环境中的即时变化和刺激快速反应的能力。这意味着,主体可以感知周围环境的变化,并迅速采取适当的行动。传统上,语言模型的感知空间被限制在文本输入,而动作空间被限制在文本输出。然而,研究人员已经证明了使用多模态融合技术扩展LLM感知空间的潜力,使其能够快速处理来自环境的视觉和听觉信息。类似地,通过实施技术和工具使用来扩展LLM的动作空间也是可行的。一个主要的挑战是,基于LLM的代理在执行非文本动作时,需要在最终将它们转化为具体动作之前,以文本形式生成想法或公式化工具使用。这种中间过程会消耗时间并降低响应速度。然而,这与人类行为模式密切相关,遵守"三思而后行"。
积极主动。主动性是指行为人不仅仅对环境做出反应,他们还具有主动采取行动以实现目标的能力。这一性质强调主体在行动中能够推理、制定计划、采取主动措施,以实现特定目标或适应环境变化。尽管直观地,LLMs中的下一个标记预测的范例可能不具有意图或愿望,但研究表明,它们可以隐含地生成这些状态的表示,并指导模型的推理过程。LLM已经证明了其强大的一般化推理和规划能力。通过用"让我们一步一步地思考"这样的指令来激励大型语言模型,我们可以引出它们的推理能力,比如逻辑推理和数学推理。类似地,大型语言模型也显示出了计划的诵现能力,表现为目标重构、任务分解以及根据环境变化调整计划。
社交能力强。社交能力是指一个主体通过某种主体沟通语言与其他主体(包括人类)进行互动的能力。大型语言模型表现出很强的自然语言交互能力,如理解和生成。与结构化语言或其他通信协议相比,这种能力使它们能够以可解释的方式与其他模型或人进行交互。这构成了基于LLM的代理人社交能力的基石。许多研究人员已经证明,基于LLM的代理可以通过诸如协作和竞争之类的社会行为来增强任务执行。通过输入特定的提示,LLM还可以扮演不同的角色,从而模拟真实的世界中的社会分工。此外,当我们将具有不同身份的多个代理人放入一个社会时,可以观察到涌现的社会现象。