大模型智能体（LLM Agent）基础入门

一、大模型

大模型 对应的英文是Large Language Model（LLM），即大语言模型，简称大模型。技术层面讲，大模型是一种基于深度学习技术的机器学习模型。

为什么叫大模型呢？它是相对于小模型而言的。传统的机器学习算法一般是解决某个特定领域的问题（例如文本分类），使用的训练数据集规模较小，参数也比较少。而大模型一般是基于互联网上的海量数据训练而成的，模型参数可达数十亿至数万亿。这些参数就像大脑中的神经元连接，数量越多，模型能学习和掌握的细节就越丰富，解决问题的能力也就越强。

训练大模型的过程，类似于一个不断学习和积累经验的过程。它需要喂给模型海量的数据，比如文本文档、图像、语音记录等，通过复杂的算法让模型自己找出数据中的规律和模式。这样一来，当面临新的问题或数据时，大模型就能基于已学习到的知识做出高质量的预测或生成相应的输出，比如精准回答问题、创作文字、识别图像内容等。

大模型的威力在于，它不仅仅局限于某一特定任务，而是具有一定的通用性，能够在多个领域展现出色的表现，比如自然语言处理、图像识别、语音识别等。著名的例子如GPT系列，它们能够进行智能对话、文本生成，甚至展现出一定的创造性思维。

大模型不仅能够处理不同类型的任务，而且支持多种数据格式，例如文本、语音、图片、视频，这就是所谓的"多模态 "。

当然，大模型的"大"也意味着它有"大胃口"，训练这样的模型需要极强的计算能力和大量的时间，同时伴随高昂的成本。除了GPU资源，训练一次大模型往往需要几周到几个月的时间。所以，除了大公司以及不差钱的创业公司，普通人是很难自己训练一个大模型的。

基础大模型训练好（称为预训练）以后，针对特定领域的任务，还需要进行微调，以便模型达到最佳的性能。所谓微调，就是将少量的经人工标注的高质量数据集喂给大模型，从而得到一个更适合解决特定任务的精细化模型。

微调是一个二次训练的过程，它所需要的算力和成本远低于预训练过程。但对于大多数个人开发者，门槛依然比较高。

二、智能体

大模型可以帮我们做很多事情，例如回答问题、写周报&文档、内容总结、翻译等。但普通人和大模型直接交互是不现实的，类GPT聊天机器人是大模型面向普通用户提供的一种接口，能够帮忙人们完成很多任务，但大模型能做的远不止于此，而聊天是一种泛化的场景，很多时候解决问题的效率不是很高。因此，这就需要 "智能体"登场了。

智能体（ Agent**）** 是人工智能领域中的一个核心概念，指的是具有智能的实体，能够感知其环境、通过学习和推理改变自身状态，并采取行动以实现特定目标。智能体既可以是物理实体，如机器人，也可以是虚拟实体，如软件程序。它们能够自主活动并与环境交互，具备驻留性、反应性、社会性、主动性等特征，构成了一种能够持续自主发挥作用的计算实体。

想象一下科幻电影里的场景，一个机器人边工作边和人类对话，可以根据人类指令完成任务，还可以独自开飞船，维修设备，甚至照看小孩等。可以将这种智能机器人视为一种智能体。

基于大模型的智能体 是一种具有自我管理、自我学习、自我适应、自我决策 能力的机器人或软件。它可以在没有人工参与的情况下工作，这与传统的自动化程序是不同的。自动化程序是将固定的流程自动执行，假如其中某个依赖项不可用时，自动化程序一般会失败。智能体能够感知环境，自我学习和自我决策，能够创造性地解决问题。

大语言模型（LLM）智能体，是一种利用大语言模型进行复杂任务执行的应用。如果将大模型（LLM）比作底层操作系统（如iOS和Andriod）的话，那么智能体（Agent）就是上层App。这正是工程技术人员擅长的领域。

Perception（输入）： AI Agent通过文字输入、传感器、摄像头、麦克风等等，建立起对外部世界或环境的感知。
Brain（大脑）： 大脑是AI Agent最重要的部分，包括信息存储、记忆、知识库、规划决策系统。
Action（行动）： 基于Brain给出的决策进行下一步行动，主要包括对外部工具的API 调用，或者对物理控制组件的信号输出。

2.1 智能体的类型

2.1.1 基于内部决策架构的分类

传统智能体的演进路径本身就构成了最经典的分类阶梯，它涵盖了从简单的反应式 智能体，到引入内部模型的模型式 智能体，再到更具前瞻性的基于目标 和基于效用 的智能体。此外，学习能力 则是一种可赋予上述所有类型的元能力，使其能通过经验自我改进。

2.1.2 基于时间与反应性的分类

这个视角关注智能体是在接收到信息后立即行动，还是会经过深思熟虑的规划再行动。这揭示了智能体设计中一个核心权衡：追求速度的反应性（Reactivity） 与追求最优解的规划性（Deliberation） 之间的平衡。

反应式智能体 (Reactive Agents)

这类智能体对环境刺激做出近乎即时的响应，决策延迟极低。它们通常遵循从感知到行动的直接映射，不进行或只进行极少的未来规划。上文的简单反应式 和基于模型 的智能体都属于此类别。

其核心优势在于速度快、计算开销低 ，这在需要快速决策的动态环境中至关重要。例如，车辆的安全气囊系统必须在碰撞发生的毫秒内做出反应，任何延迟都可能导致严重后果；同样，高频交易机器人也必须依赖反应式决策来捕捉稍纵即逝的市场机会。然而，这种速度的代价是"短视"，由于缺乏长远规划，反应式智能体容易陷入局部最优，难以完成需要多步骤协调的复杂任务。

规划式智能体(Deliberative Agents)

与反应式智能体相对，规划式（或称审议式）智能体在行动前会进行复杂的思考和规划。它们不会立即对感知做出反应，而是会先利用其内部的世界模型，系统地探索未来的各种可能性，评估不同行动序列的后果，以期找到一条能够达成目标的最佳路径。基于目标 和基于效用 的智能体是典型的规划式智能体。

可以将其决策过程类比为一位棋手。他不会只看眼前的一步，而是会预想对手可能的应对，并规划出后续几步甚至十几步的棋路。这种深思熟虑的能力使其能够处理复杂的、需要长远眼光的任务，例如制定一份商业计划或规划一次长途旅行。它们的优势在于决策的战略性和远见。然而，这种优势的另一面是高昂的时间和计算成本。在瞬息万变的环境中，当规划式智能体还在深思熟虑时，采取行动的最佳时机可能早已过去。

混合式智能体(Hybrid Agents)

现实世界的复杂任务，往往既需要即时反应，也需要长远规划。例如，我们之前提到的智能旅行助手，既要能根据用户的即时反馈（如"这家酒店太贵了"）调整推荐（反应性），又要能规划出为期数天的完整旅行方案（规划性）。因此，混合式智能体应运而生，它旨在结合两者的优点，实现反应与规划的平衡。

一种经典的混合架构是分层设计：底层是一个快速的反应模块，处理紧急情况和基本动作；高层则是一个审慎的规划模块，负责制定长远目标。而现代的LLM智能体，则展现了一种更灵活的混合模式。

它们通常在一个"思考-行动-观察"的循环中运作，巧妙地将两种模式融为一体：

规划(Reasoning) ：在"思考"阶段，LLM分析当前状况，规划出下一步的合理行动。这是一个审议过程。
反应(Acting & Observing) ：在"行动"和"观察"阶段，智能体与外部工具或环境交互，并立即获得反馈。这是一个反应过程。

通过这种方式，智能体将一个需要长远规划的宏大任务，分解为一系列"规划-反应"的微循环。这使其既能灵活应对环境的即时变化，又能通过连贯的步骤，最终完成复杂的长期目标。

2.1.3 基于知识表示的分类

这是一个更根本的分类维度，它探究智能体用以决策的知识，究竟是以何种形式存于其"思想"之中。这个问题是人工智能领域一场持续半个多世纪的辩论核心，并塑造了两种截然不同的AI文化。

2.2 智能体构成

构建大语言模型智能体（LLM Agent）时，LLM充当着控制中心或"大脑"的角色，负责管理完成任务或响应用户请求所需的一系列操作。智能体Agent通过调用大模型的能力完成任务，并需要依赖于规划、记忆以及工具使用等关键模块。

通常，一个大语言模型智能体框架包含以下核心部分：

用户请求：表达用户的问题或请求

智能体/大脑：作为协调者的智能体核心

规划：助于智能体为未来行动做规划

记忆：管理智能体的历史行为和经验，分为长期记忆和短期记忆。

工具使用：调用工具与外部环境交互

通过这些组成部分的协同工作，大模型智能体能够处理从简单到复杂的各种请求，不仅能够提供直接的答案，还能解决需要深度分析和多步骤操作的问题。这种智能体的能力，使其在处理复杂信息查询、数据分析和可视化表示等方面具有巨大潜力。

智能体 = LLM（大脑） + 记忆（短期 / 长期） + 工具（能力扩展） + 规划（任务拆解） + 执行（动作落地） + 反馈（自我优化） 。

2.2.1 记忆模块 (Memory)

记忆模块是智能体存储和检索信息的中心。短期记忆通常指模型的上下文窗口（Context），负责处理当前对话，缺点是容量有限且信息易失；长期记忆类似人类的长期知识和经验库，用于存储长久保留的信息，如专业知识、过往交互总结、用户行为偏好、世界事实等。

短期记忆： 短时记忆（STM）或工作记忆：指的是我们当前意识到的信息，或者在学习和推理等复杂认知任务中所需要的信息。

长期记忆： 长时记忆指的是能够存储很长时间，从几天到几十年不等的信息，它的存储容量基本上是无限的。长时记忆又包括显性记忆和隐性记忆。

2.2.2 规划模块 (Planning)

该模块负责将复杂任务"化繁为简"。它通过子目标拆解将大任务分解为可执行步骤，利用思维链（CoT）、思维树（ToT）、思维图（GoT）进行深度推理。更重要的是其反思机制，能对已执行的步骤进行自我评判和纠错，不断优化行动路径。

思维链（COT）推理

思维链是指一系列有逻辑关系的思考步骤，形成一个完整的思考过程。把推导过程写出来提供给大模型，大模型就可以做相对复杂的推理任务。

思维树TOT

是对思维链CoT的进一步扩展，在思维链的每一步，推理出多个分支，拓扑展开成一棵思维树。

COT-SC

一个CoT出现错误的概率比较大，我们可以让Agent进行发散，尝试通过多种思路来解决问题，然后投票选择出最佳答案

思维图GOT

思维树ToT 的方式也存在一些缺陷，对于需要分解后再整合的问题，比如排序问题，排序需要分解和排序，然后再merge，可以引入思维图GOT来解决。

2.2.3 工具模块 (Tools)

工具模块扩展了智能体的能力边界，使其具备"行动力"。通过标准化的API接口，智能体可以调用搜索引擎获取实时情报、利用计算器进行精确运算或运行代码。它弥补了模型在实时性、准确性和专业操作上的短板。

2.2.4 行动模块 (Action)

行动模块是智能体与外界交互的最后一步。它将规划好的指令转化为具体的输出，无论是发送一封邮件、修改一个日程，还是与另一个智能体协作。它接收环境反馈，并将结果传回记忆模块，形成"感知-决策-行动"的闭环。

2.3 样例

对于没有接触过智能体的人，上述框架可能有点抽象，下面我们以一个例子来说明智能体的架构，假如我们想让AI完成以下任务：

复制代码

用户：明天上午要去A地出差，下午与X开会，帮我订好机票、酒店和会议日程。

对于人类助理来说，这是很简单的事情，但以目前大模型的能力，还难以解决这个问题。而从技术角度来说，可以开发一个基于大模型的智能体来解决这类问题，这个智能体主要包含以下部分：

复制代码

1. 规划：通过调用大模型的能力将任务分解，先分为出差行程安排和会议预约两个子任务。
    1.1出差行程安排继续分解为：
        1.1.1从用户所在地到所在城市机场：
            a.其中用户所在地通过感知环境信息获得（可以通过用户初始设置或过往历史存放在记忆组件里面）
            b.决定出行时间
            c.决定出行方式：如乘坐出租车，预约
        1.1.2从用户所在城市机场到A地机场：
            a.决定出行时间
            b.决定出行方式，预约
        1.1.3从A地机场到A地某酒店：
            a.预订A地某酒店
                1.决定入住时间
            b.决定从A地机场到达酒店方式：如乘坐出租车，预约

    1.2会议预约继续分解为：
        1.2.1查看用户和X的日程，找到二者都空闲的时间段
        1.2.2确定会议时间，预约会议
2.记忆：
    2.1用户所在地应存放在长期记忆中。
    2.2根据规划的分解，后面的步骤会依赖前面步骤的结果，那么需要把前面步骤的执行结果存放在短期记忆中。
3.工具使用：
    3.1通过调用网约车平台接口预约出租车（需要用户授权，授权信息也可以存储在长期记忆中）
    3.2通过调用航班信息查询接口获取航班信息，调用航班预订接口订机票（需要用户授权，授权信息也可以存储在长期记忆中）
    3.3通过调用OTA平台接口完成酒店预订（需要用户授权，授权信息也可以存储在长期记忆中）
    3.4通过调用支付接口完成支付（需要用户授权，授权信息也可以存储在长期记忆中）
    3.5通过调用日历接口完成日程查询和会议预订。

三、智能体相关技术

**TOT：**即思维树（Tree of Thoughts），是思维链（COT）的升级版本。简单来说，它是针对同一个问题，让大模型使用多种不同解决方法，每种方法包含多个步骤，这样构成了一个思维过程的树状结构，大模型可以采用广度优先或深度优先搜索算法遍历这棵树，生成最佳答案。

**提示链：**提示链是将一个提示的输出作为另一个提示的输入，这样可以组合多个不同的提示词，共同完成预定任务。

**RAG：**即检索增强生成（Retrieval Augmented Generation），RAG把一个信息检索插件和大模型结合在一起，根据用户的提示词，智能体首先通过信息检索插件检索相关的文档，再将文档连同用户原始输入作为提示词输入到大模型，从而产生更优的结果。其中，RAG的信息检索插件可以是从互联网搜索引擎获取数据，也可以是从本地的向量数据库甚至关系数据库中检索数据。

**ART：**自动推理并使用工具（Automatic Reasoning and Tool- use），工作原理是：将人工标注好的任务库挂载到大模型，任务库即一组任务示例，包含任务目标和解决步骤。当智能体接到一个新任务的时候，可以在任务库选择合适的示例，自动推理问题求解步骤，并在适当的位置调用外部工具，最终完成任务。

**ReAct：**即推理+行为（Reason+Act），可以让大模型以交错的方式生成推理轨迹和任务特定操作。ReAct 框架允许 LLMs 与外部工具交互来获取额外信息，从而给出更可靠和实际的回应。

**Reflexion：**自我反思自我反思由三个不同的智能体组成：

参与者（Actor）：根据状态观测量生成文本和动作。参与者在环境中采取行动并接受观察结果，从而形成轨迹。链式思考（CoT）和 ReAct 被用作参与者模型。此外，还添加了记忆组件为智能体提供额外的上下文信息。

评估者（Evaluator）：对参与者的输出进行评价。具体来说，它将生成的轨迹（也被称作短期记忆）作为输入并输出奖励分数。根据人物的不同，使用不同的奖励函数（决策任务使用LLM和基于规则的启发式奖励）。

自我反思（Self-Reflection）：生成语言强化线索来帮助参与者实现自我完善。这个角色由大语言模型承担，能够为未来的试验提供宝贵的反馈。自我反思模型利用奖励信号、当前轨迹和其持久记忆生成具体且相关的反馈，并存储在记忆组件中。智能体利用这些经验（存储在长期记忆中）来快速改进决策。

关于大模型智能体的开发技术架构，听的最多就是langchain，网上介绍文章也很多。langchain是一个第三方的开源大模型应用开发框架，官方提供了python和javascript两种语言支持，其它语言也有一些开发者/组织做了移植，例如langchain4j、langchaingo。除了langchain，还有AutoGPT，微软的AutoGen等，这些框架支持的主流开发语言大多都是python。对于Java背景的开发人员， Java/Spring生态体系下也有Spring AI框架。

四、单智能体和多智能体

单Agent：即通过单一的Agent来解决问题，不需要与其他Agent进行交互
多Agent：这种模式侧重于多个Agent之间的互动和信息共享，多个Agent协同工作，相互交流信息，共同完成更复杂的任务或目标
混合Agent：这种模式中，Agent系统和人类共同参与决策过程，交互合作完成任务，强调的是人机协作的重要性和互补性

单智能体即一个独立的智能体，它可以自动完成相关任务。对一些比较复杂的任务，单智能体可能难以胜任。此时，可以构建多个相互协作的智能体，共同构成一个系统来处理用户任务。

例如，考虑一个软件项目，当用户提出需求后：

由产品经理和用户沟通明确需求，产出产品设计文档。
架构师对系统进行架构设计，产出技术设计文档。
项目经理分派任务并跟踪进度。
开发人员负责编写模块代码。
测试人员负责编写测试用例，执行测试。
运维人员负责上线发布。

根据软件项目中的角色，我们可以分别构造不同角色的智能体,例如有一个产品经理智能体可以和用户沟通需求，并生成产品设计文档，另外有一个架构师智能体根据产品文档产出技术设计文档，依此类推。让这些智能体相互协作，构成一个软件开发智能体团队，共同完成用户需求。

五、Workflow和Agent的差异

在理解了智能体作为"工具"和"协作者"两种模式后，我们有必要对Workflow和Agent的差异展开讨论，尽管它们都旨在实现任务自动化，但其底层逻辑、核心特征和适用场景却截然不同。

简单来说，Workflow 是让 AI 按部就班地执行指令，而 Agent 则是赋予 AI 自由度去自主达成目标。

核心是对一系列任务或步骤进行预先定义的、结构化的编排。它本质上是一个精确的、静态的流程图，规定了在何种条件下、以何种顺序执行哪些操作。一个典型的案例：某企业的费用报销审批流程。员工提交报销单（触发）-> 如果金额小于500元，直接由部门经理审批 -> 如果金额大于500元，先由部门经理审批，再流转至财务总监审批 -> 审批通过后，通知财务部打款。整个过程的每一步、每一个判断条件都被精确地预先设定。

与工作流不同，基于大型语言模型的智能体是一个具备自主性的、以目标为导向的系统。它不仅仅是执行预设指令，而是能够在一定程度上理解环境、进行推理、制定计划，并动态地采取行动以达成最终目标。LLM在其中扮演着"大脑"的角色。一个典型的例子，便是我们在1.3节中写的智能旅行助手。当我们向它下达一个新指令，例如："你好，请帮我查询一下今天北京的天气，然后根据天气推荐一个合适的旅游景点。" 它的处理过程充分展现了其自主性：

规划与工具调用：Agent首先会把任务拆解为两个步骤：① 查询天气；② 基于天气推荐景点。随即，它会自主选择并调用"天气查询API"，并将"北京"作为参数传入。
推理与决策：假设API返回结果为"晴朗，微风"。Agent的LLM大脑会基于这个信息进行推理："晴天适合户外活动"。接着，它会根据这个判断，在它的知识库或通过搜索引擎这个工具中，筛选出北京的户外景点，如故宫、颐和园、天坛公园等。
生成结果：最后，Agent会综合信息，给出一个完整的、人性化的回答："今天北京天气晴朗，微风，非常适合户外游玩。为您推荐前往【颐和园】，您可以在昆明湖上泛舟，欣赏美丽的皇家园林景色。"

在这个过程中，没有任何写死的if天气=晴天 then 推荐颐和园的规则。如果天气是"雨天"，Agent会自主推理并推荐国家博物馆、首都博物馆等室内场所。这种基于实时信息进行动态推理和决策的能力，正是Agent的核心价值所在。

六、AI Agent的优势和局限

优势：

1、以任务为导向：脱离了传统Chatbot闲聊的交互模式，自动进行后续的推理和行动，可以大幅提升工作效率。

2、自然的交互方式：由于AI Agent本身以LLM大语言模型为底座，固有的语言理解和语言生成能力，确保了自然无缝的用户交互。

3、进化的决策能力：虽然目前LLM大模型的决策能力还远远不如人类，但这项能力在持续不断的进化。

4、灵活的适应性：在RAG和Function Calling等技术的支撑下，AIAgent可以快速适应各种不同的行业和应用场景

局限：

1、可靠性不足：LLM大模型容易出现幻觉和不一致性，将多个步骤连起来会进一步加剧可靠性问题，从而难以获得用户信任，这会大大限制AI Agent在一些Critical场景下的应用。

2、法律问题：对于企业对外输出的AI Agent，企业可能要对其产生的错误负责。比如，最近一位客户因为被加拿大航空公司的聊天机器人误导而延误航班，最终由加拿大航空予以赔偿。

3、性能和成本：GPT-4、Gemini-1.5在推理和function calling的表现不错，但仍然较慢且成本高，特别是需要进行循环调用和自动重试。