AI agent底层知识一篇通

AI agent:底层知识一篇通

文章目录

[AI agent:底层知识一篇通](#AI agent:底层知识一篇通)
一、底层知识
- 1.最底层------LLM
- 2.Transformer
- - 图解
  - 例子解释
- 3.Token(编码和解码的核心转换机制)
- 超易懂图解
- - [1. 原始文本与 Token 的必要性](#1. 原始文本与 Token 的必要性)
  - [2. 分词与 BPE 算法](#2. 分词与 BPE 算法)
  - - [2.1 为什么需要子词分词](#2.1 为什么需要子词分词)
    - [2.2 BPE（Byte Pair Encoding）核心原理](#2.2 BPE（Byte Pair Encoding）核心原理)
  - [3. Token → Token ID 映射](#3. Token → Token ID 映射)
  - [4. Embedding（向量化）](#4. Embedding（向量化）)
  - [5. 位置编码（Positional Encoding）](#5. 位置编码（Positional Encoding）)
  - [6. 最终输入编码器](#6. 最终输入编码器)
  - [7. 总结](#7. 总结)
- 4.Context（上下文）
- - [1.什么是 Context（上下文）](#1.什么是 Context（上下文）)
  - [2. Context 在 Transformer 中的体现](#2. Context 在 Transformer 中的体现)
  - - 编码器中的上下文
    - 解码器中的上下文
  - [3. Self-Attention 与上下文建模](#3. Self-Attention 与上下文建模)
  - [4. Multi-Head Attention 与多视角上下文](#4. Multi-Head Attention 与多视角上下文)
  - [5. 长序列与上下文窗口](#5. 长序列与上下文窗口)
  - [6. 上下文对生成与理解的影响](#6. 上下文对生成与理解的影响)
  - [7. 总结大白话](#7. 总结大白话)
- 5.RAG
- - [1. RAG 是什么](#1. RAG 是什么)
  - [2. RAG 的核心流程](#2. RAG 的核心流程)
  - [3. RAG 与 Transformer / LLM 的关系](#3. RAG 与 Transformer / LLM 的关系)
- 6.Prompt（提示词）
- - [Prompt Engineer](#Prompt Engineer)
  - - [1. 定义与作用](#1. 定义与作用)
    - [2.Prompt 类型](#2.Prompt 类型)
    - [3. Prompt 设计原则与技巧](#3. Prompt 设计原则与技巧)
  - Prompt详解
- 7.tool(工具、函数)
- 8.MCP（实战后续文章中）
- - 1.Model（模型）
  - [2. Context（上下文）](#2. Context（上下文）)
  - [3. Protocol（协议）](#3. Protocol（协议）)
- 9.Agent
- - [1、什么是 Agent？核心定义](#1、什么是 Agent？核心定义)
  - [2、Agent 的能力维度（核心能力）](#2、Agent 的能力维度（核心能力）)
  - - 1）自主规划
    - [2）工具调用能力（and MCP标准）](#2）工具调用能力（and MCP标准）)
    - 3）上下文感知（Context）
    - [4）结果整合 & 输出](#4）结果整合 & 输出)
  - [3、Agent 工作流程（落地执行图）](#3、Agent 工作流程（落地执行图）)
  - [4、Agent 类别](#4、Agent 类别)
  - - [☑ 简单 Agent](#☑ 简单 Agent)
    - [⭐ 企业级 Agent](#⭐ 企业级 Agent)
  - [5、Agent 与常见框架的关系](#5、Agent 与常见框架的关系)
  - [🔹 ReAct](#🔹 ReAct)
  - [🔹 Plan-and-Execute](#🔹 Plan-and-Execute)
  - [6、企业级 Agent 价值总结](#6、企业级 Agent 价值总结)
二、Agent搭建
- - - [⭐ 企业级 Agent](#⭐ 企业级 Agent)
  - [5、Agent 与常见框架的关系](#5、Agent 与常见框架的关系)
  - [🔹 ReAct](#🔹 ReAct)
  - [🔹 Plan-and-Execute](#🔹 Plan-and-Execute)
  - [6、企业级 Agent 价值总结](#6、企业级 Agent 价值总结)
二、Agent搭建

一、底层知识

1.最底层------LLM

全称：Large Language Model （大语言模型）

简称：大模型

内部架构：基本上现在所有大模型都基于transformer这套架构训练出来的。

2.Transformer

是一种以注意力机制为核心的序列到序列深度学习模型架构，擅长捕捉长距离依赖，支持高效并行训练，是现代大语言模型（LLM）的基础。

图解

输入部分

Input Embedding：将输入的词（Tokens）转换成向量。

Positional Encoding：加入位置信息，因为 Transformer 不使用 RNN，需要知道词序列顺序。

编码器（Encoder）

多层堆叠（N×）

每层包括：

Multi-Head Self-Attention（多头自注意力）：捕捉序列中各词之间的关系。
Add & Norm：残差连接 + 归一化。
Feed Forward（前馈网络）：对每个位置独立进行非线性变换。
Add & Norm：再一次残差连接 + 归一化。

输出：生成编码表示（Memory），传给解码器使用。

解码器（Decoder）

多层堆叠（N×）

每层包括：

Masked Multi-Head Self-Attention（掩码多头自注意力）：保证生成时只能看到前面的输出。
Add & Norm
Encoder-Decoder Cross-Attention（编码-解码注意力）：利用编码器的输出信息。
Add & Norm
Feed Forward
Add & Norm

输出：每个位置生成预测向量。

输出层

Linear：将解码器输出映射到词表维度。

Softmax：生成概率分布，预测下一个词。

核心思想

Encoder-Decoder + Attention 取代了 RNN，支持并行计算。
多头注意力可以同时关注序列不同位置的信息。
解码器是自回归的：生成词时只能参考左侧已生成内容。

🔴简而言之，就像是一个超级聪明的"信息整理器+思考器"，它专门用来处理文字、句子、甚至代码或者图片序列。

上面这张图表达的意思可以理解为：

逻辑和核心思想：

输入句子：我爱 AI

输入嵌入和位置编码

每个词被转换成向量（Embedding），再加上位置信息（Positional Encoding）让模型知道词序。

在图中，输入序列经过"词嵌入 + 位置编码"进入编码器。
编码器（Encoder × N）文字➡️数字（切分和映射）

句子向量经过多层编码器，每层包含：

多头自注意力（Multi-Head Self-Attention）→理解句子中词之间的关系

Add & Norm（残差连接 + 层归一化）

前馈网络（Feed Forward）+ Add & Norm

输出编码表示（Memory），包含整句话的上下文信息。
目标序列右移

解码器在训练时，需要右移目标序列（Shifted Target），例如 <bos> 我 love AI，保证解码器自回归生成。
解码器（Decoder × N）数字➡️文字（映射）

解码器每层包含：

掩码多头自注意力（Masked Multi-Head Self-Attention）→防止看到未来词

编码器-解码器注意力（Cross-Attention）→利用编码器 Memory

前馈网络 + Add & Norm
输出层预测

解码器输出向量经过 Linear + Softmax → 预测每个词的概率（Predicted Tokens）

图中示例：模型预测"我 love AI"的下一个词概率分布。
训练循环

预测输出 + 目标标签 → 计算交叉熵损失（Cross-Entropy Loss）

反向传播（Backprop）更新参数 → 使用 Optimizer（Adam/AdamW）

训练循环持续迭代，提高模型预测准确率。

总结

聚焦例子：输入一句话 "我爱 AI"，Transformer 学会根据上下文理解关系，并逐词生成输出序列。

逻辑串起来

输入句子 → Encoder 理解 → Decoder 生成 → Softmax 预测概率 → 与真实标签比对 → 反向传播更新参数 → 重复训练循环。
训练目标是让模型逐步学会生成正确的词序列，捕捉上下文依赖关系。

例子解释

假设我们用 Transformer 来处理一句中文句子输入

例如：输入句子：我爱 AI

首先，模型把每个词变成向量，就像把文字翻译成机器能理解的数字。为了让模型知道词的顺序，它还会给每个词加上位置标签，这样模型知道"我"在最前面，"爱"在中间。

接着，这些词向量进入编码器，编码器就像一个聪明的大脑，会同时观察整个句子中每个词之间的关系。它使用自注意力机制，让每个词可以看到其他词的信息，然后经过前馈网络和归一化处理，把整个句子的意思整理成一组向量。

这些向量传到解码器，解码器就像模型的写作系统，它要根据编码器理解的内容逐步生成输出。训练时，目标句子会被右移一个词，让解码器一次只看到前面已经生成的词。解码器先看自己生成过的词，然后参考编码器传来的信息，生成下一个词的预测向量，再经过线性层和 Softmax 计算出每个词的概率。

模型把预测出来的词和真实的目标词进行对比，计算损失，然后用反向传播调整内部参数。这个过程重复很多次，模型就慢慢学会在给定句子上下文的情况下正确预测下一个词。

最终，经过训练的 Transformer 能够理解整个句子，抓住词与词之间的关系，并逐步生成输出句子，就像一个会同时理解和写作的超级翻译官一样。

3.Token(编码和解码的核心转换机制)

大模型处理文本最基本的单位

大模型的输入输出不是文字，而是一串数字，需要通过tokenizer进行转换

超易懂图解

1. 原始文本与 Token 的必要性

在自然语言处理任务中，原始文本（比如"张三的文章怎么样"）是人类语言，计算机无法直接理解。Transformer 需要处理的是数字向量 ，所以必须先将文字切分成可识别的最小单位，也就是 Token。Token 可以是单个字、单词，或者子词（subword）。这个步骤是 Transformer 的第一步，也是整个文本处理的基础。

2. 分词与 BPE 算法

2.1 为什么需要子词分词

直接按字或词切分会出现两种问题：

词表膨胀：每个词作为一个 Token，词表非常大，低频词几乎没有训练效果。
未知词问题：训练集中未出现的词无法处理。

2.2 BPE（Byte Pair Encoding）核心原理

BPE 是子词分词的一种算法，逻辑是从最小单位开始（字符），不断把出现频率最高的连续字符组合成新符号，直到达到目标词表大小。

例如句子"张三的文章"，初始按字切分：[张][三][的][文][章]

高频组合 [文章] 会被加入词表
低频组合保持拆分 [文][章]

BPE 的优点：

处理未知词时能拆成已有子词组合。

词表小而高效。

保留词语语义信息。

3. Token → Token ID 映射

每个 Token 都会被映射为唯一整数 Token ID。这是模型实际可以处理的数字表示。

例子：

复制代码

张三 → 41
的 → 36
文章 → 52
怎么样 → 9

Token ID 仅是索引，模型真正计算的是后续查表得到的 Embedding 向量。

4. Embedding（向量化）

Token ID 查表得到向量表示，每个向量通常是高维的（如 512 维）。

这个向量不仅标识 Token，还会在训练中学习词语的语义信息。

对 Transformer 来说，Embedding 是让文字变成"可计算"的形式。

5. 位置编码（Positional Encoding）

Transformer 并没有循环或卷积结构，所以需要位置信息告诉模型序列中每个 Token 的顺序。

位置编码通过正弦和余弦函数生成向量，加入到 Token 向量中：

复制代码

PE(pos, 2i)   = sin(pos / 10000^(2i/d_model))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

这样模型既能理解语义，又能理解顺序。

6. 最终输入编码器

每个 Token 经历：

复制代码

原始文本 → BPE Token → Token ID → Embedding 向量 → + 位置编码

形成 输入向量序列：

复制代码

[张三向量+位置0, 的向量+位置1, 文章向量+位置2, 怎么样向量+位置3]

这个序列进入编码器，开始进行自注意力运算和前馈网络处理，生成上下文丰富的表示。

7. 总结

完整的 Token 生成机制逻辑：

文本切分：用 BPE 把文本拆成子词 Token
Token 映射：每个 Token 对应唯一 Token ID
Embedding：Token ID 转向量
位置编码：向量加上位置信息
编码器输入：形成可供 Transformer 理解的向量序列

简单比喻：Tokenizer 就像"速记翻译官"，把人类语言拆分成小块子词（Token），再翻译成数字（ID + 向量）供 Transformer 处理，每个步骤都有逻辑递进，从最小单位到模型可理解的形式。

4.Context（上下文）

1.什么是 Context（上下文）

在自然语言处理（NLP）中，上下文（Context）指一段文本中，当前词或句子周围的语义信息。换句话说，就是模型生成或理解某个词时，需要参考的前后文信息。

短期上下文：当前句子或短语。

长期上下文：前几句甚至整个文档。

在 Transformer / LLM 中，上下文决定了模型对词义的理解和生成结果。

2. Context 在 Transformer 中的体现

编码器中的上下文

编码器处理输入序列时，每个词的表示不仅包含自身信息，还通过 自注意力机制（Self-Attention） 融合了整个序列中其他词的信息。

例如输入句子："张三的文章怎么样"，编码器在生成"文章"的向量时，会注意到"张三""的""怎么样"，这些都是上下文信息。

解码器中的上下文

解码器生成每个词时，除了参考编码器输出（输入的上下文），还会参考已经生成的前面词（自回归上下文）。

这种机制确保：

模型生成的句子前后逻辑一致。
当前词生成依赖前文，同时结合输入上下文。

3. Self-Attention 与上下文建模

自注意力是 Transformer 捕捉上下文的核心。

原理：

每个词生成 Query/Key/Value 向量。

Query 对应当前词，Key/Value 对应整个序列。

通过 Q·K^T 计算每个词对当前词的影响力（注意力分数）。

将注意力权重应用到 Value 上，得到融合了全局上下文的词向量。
结果：

每个词的表示包含了整个序列的语义信息。

模型不仅知道词本身，还知道它在上下文里的意义。

4. Multi-Head Attention 与多视角上下文

**多头注意力（Multi-Head Attention）**允许模型从不同角度理解上下文：

每个注意力头关注不同关系，如主语-谓语、定语-名词等。

拼接所有头的输出，得到丰富的上下文表示。

这就是为什么 LLM 能处理复杂语言现象，比如歧义词和长距离依赖。

5. 长序列与上下文窗口

LLM 处理上下文时有 上下文长度限制：

例如 GPT-3 最大 2048 token，GPT-4 可达到 32k token。

超过长度的部分会被截断或滑动窗口处理。

在训练阶段，模型学习 在给定上下文窗口下预测下一个词。

在生成阶段，模型利用前面生成的词作为上下文，自回归生成后续词。

6. 上下文对生成与理解的影响

生成任务：

上下文决定了模型输出的合理性。

缺乏上下文 → 生成不连贯、逻辑不一致。

理解任务：

上下文帮助模型正确理解多义词或指代关系。

例如"它很大"，上下文决定"它"指代什么。

7. 总结大白话

Transformer / LLM 的核心能力之一就是 建模上下文。

编码器通过自注意力聚合输入序列信息，解码器通过自回归和交叉注意力结合输入上下文。

上下文决定模型理解和生成效果，是模型智能的基础。

简单比喻：

上下文就像在读一篇文章时，你记住前面写了什么，然后接着写或理解下一句话。

Transformer 通过注意力机制把所有前面词的信息自动融入当前词的表示。

5.RAG

1. RAG 是什么

**RAG（Retrieval-Augmented Generation）**是一种结合 检索（Retrieval） 和 生成（Generation） 的语言模型架构。

目标：解决大语言模型在知识有限或上下文窗口受限时，无法准确回答事实性问题的问题。

核心思想：模型不仅依赖自己内部记忆（预训练参数），还可以从外部知识库检索相关信息，然后再生成回答。

2. RAG 的核心流程

假设你问："张三的最新研究成果是什么？"

查询生成（Query Generation）

模型先将用户输入（问题）编码为向量表示。

Transformer / LLM 将问题转成向量查询，这一步本质上利用了之前讲的 Token → Embedding → 上下文向量。
知识检索（Retrieval）

用生成的向量在知识库中检索最相关的文档或段落。

知识库可以是：文档集合（PDF、文章），数据库，互联网索引，返回 top-k 个相关内容。
增强上下文（Augmented Context）

将检索到的文本拼接或编码成上下文，供生成模型使用。

Transformer 解码器在生成回答时，可以同时关注：

原始问题上下文（前文问题）

检索到的外部文档上下文

这样生成模型的"上下文窗口"被动态扩展。
生成回答（Generation）

解码器根据增强后的上下文逐词生成回答。

自注意力机制确保：

每个生成的词参考原问题和检索内容

保持逻辑一致和事实正确
反馈/迭代（可选）

用户可对生成结果进行反馈，进一步调整检索或生成策略。

3. RAG 与 Transformer / LLM 的关系

组件	对应概念
用户输入 → Token → Embedding	上下文建模：Transformer 将问题转为上下文向量
检索模块	外部上下文扩展：增加原始输入上下文无法覆盖的知识
解码器生成	LLM 的自回归生成：结合问题向量 + 检索向量生成回答
注意力机制	用于融合原问题与检索文档，实现增强上下文理解

总结：

Transformer / LLM 内部的上下文是模型生成回答的基础。

RAG 的增强上下文通过外部知识检索把模型上下文"扩展"到训练语料之外的事实信息。

换句话说，RAG 是 "上下文增强版的 LLM"，结合了内部知识和外部知识。

通俗来说，普通 LLM：像一个聪明的人，回答问题只靠记忆。

RAG：聪明的人 + 资料库，你问问题时，他会先去查资料，再结合记忆回答。

Transformer 的自注意力机制仍然在核心负责理解问题和生成回答，只不过现在的上下文更丰富

6.Prompt（提示词）

给大模型发送的具体问题或指令，并不是一个复杂的东西：好的prompt是清晰的，明确的，具体的

Prompt Engineer

1. 定义与作用

Prompt 工程是为大语言模型（LLM）设计和优化输入的过程，目的是让模型生成符合预期的输出 。

Prompt 是模型生成内容时的上下文条件。用户输入的文本（User Prompt）告诉模型要做什么，而系统配置的指令（System Prompt）告诉模型怎么做。结合两者，模型才能在理解和生成上表现出智能与可控性。

2.Prompt 类型

User Prompt（用户提示）

直接来自用户的任务或问题。

决定模型要完成的具体工作或回答内容。

示例：用户输入"请总结这篇文章的核心观点"，或者"写一首关于春天的诗"。

System Prompt（系统提示）

模型运行时的后台指令，定义行为规则、人设或输出风格。

决定模型生成的方式、风格和逻辑约束。

示例：你是一位耐心的数学老师。当学生问问题时，不直接给出答案，而是一步步引导学生思考，帮助理解解题思路。

System Prompt 可以在整个会话或任务中持续影响模型行为。

3. Prompt 设计原则与技巧

明确任务：清楚告诉模型需要做什么，例如"生成总结""回答问题""翻译文本"。
提供上下文：包括用户问题、相关背景信息或外部文档，帮助模型理解完整语义。
控制输出风格：通过 System Prompt 设置行为规则、口吻、风格或格式要求。
示例引导：使用 Few-Shot Prompt 提供示例，让模型学习如何回答。
分步提示（Chain-of-Thought）：引导模型先分析或思考步骤，再生成答案，提高推理能力。

结合 User Prompt 与 System Prompt 的 Prompt 工程方法，能够让模型在理解和生成中同时兼顾任务目标 和行为约束。用户输入告诉模型"做什么"，系统指令告诉模型"怎么做"，两者共同形成模型的增强上下文，实现准确、连贯且符合规则的输出。

Prompt详解

1.在大语言模型中，Prompt 是人类与模型沟通的桥梁，它就是模型生成内容时的输入文本。

你给模型的任何指令、问题或者示例，都是 Prompt。

可以把它理解为模型的大脑收到的"提示信息"，这条信息告诉模型你希望它完成什么样的任务、回答什么样的问题或输出什么风格的内容。

Prompt 的内容直接决定了模型生成结果的方向和逻辑。

2.当模型接收到 Prompt 时，它首先会将文本拆解成 Token，也就是模型能够理解的最小单元。

3.解码器在生成输出时，会同时参考编码器输出的上下文和已经生成的词。这种自回归生成机制保证了生成序列前后逻辑一致，同时参考输入上下文，使输出更准确、更自然。解码器在生成每个词时，模型的自注意力机制会对 Prompt 中的每个 Token 进行加权计算，确保生成的词既符合语义，又符合整体上下文逻辑。

4.Prompt 的设计直接影响生成效果。

明确的指令、合理的示例、充分的上下文都能让模型生成更符合预期的内容。

例如，提供示例和问题的组合，可以让模型学习如何在特定任务中生成答案，这就是少量示例（Few-Shot Learning）提示；

直接告诉模型任务目标而不提供示例，则是零样本（Zero-Shot Learning）提示。

高级提示技术，如 Chain-of-Thought 提示，可以引导模型先"思考步骤"，再给出答案，增强推理能力。

7.在 RAG（Retrieval-Augmented Generation）等增强上下文的系统中，Prompt 不仅包括用户输入，还会被扩展为增强上下文，通过外部知识库检索相关文档加入到生成上下文中。这样，模型不仅依赖内部知识，还能结合外部信息生成更精确和丰富的回答。可以理解为 Prompt 是上下文的起点，它为模型提供了生成的条件，而检索到的外部内容则丰富了上下文，使模型能够超越自身参数限制。

总的来说，Prompt 是 LLM 和 Transformer 模型理解和生成的核心，它通过 Token 化、向量化、位置编码和上下文融合，指导模型逐步生成符合人类期望的内容。好的 Prompt 能清楚地传递任务意图、提供充分的上下文，并结合外部知识扩展，使模型能够在理解、推理和生成上表现出最佳能力。Prompt 与上下文紧密结合，是大语言模型智能化表现的基础。

7.tool(工具、函数)

在实际应用中，大模型本身有局限性 。例如当用户提问"实时天气""路线规划"或者一些依赖外部数据的问题时，模型内部的预训练参数并不能提供实时答案，因为它无法感知当前环境或最新数据。这时候就需要借助 Tool（函数/外部能力），将模型生成能力与外部资源结合。

Tool 本质上是一个函数接口，它可以被模型调用，用来获取实时信息、执行计算或访问数据库。用户的问题经过大模型理解后，模型会生成调用 Tool 的请求，例如指明要调用哪种工具、需要哪些参数，然后 Tool 执行操作并返回结果。最终，模型将 Tool 返回的内容整合进回答中，并呈现给用户。

在这个流程中，不同角色协作：

用户提供任务或问题，例如"帮我查一下今天上海的路线"。
大模型负责理解任务，将用户输入转换为向量化表示，并决定调用哪些工具。
工具接收模型请求，执行具体操作，比如计算最短路线、查询数据库或调用 API。
平台/系统负责承上启下，将模型与工具连接，并将执行结果返回给模型。
大模型将工具返回的结果整合，生成最终自然语言输出，反馈给用户。

为了让流程更直观，我们可以用一些替代的通用工具示例来说明，比如：

数据分析工具：计算平均值、统计趋势
文档检索工具：查询指定文档或知识库内容
计算工具：执行数学公式或科学计算
地图工具：规划路线或距离计算

通过这种方式，Tool 不仅扩展了大模型的能力，还使其能够执行实时、复杂或超出训练数据范围的任务。大模型负责理解与规划，Tool 提供外部执行能力，两者结合就能实现智能化应用。

8.MCP（实战后续文章中）

所有工具的同意接入标准，类似于大部分手机都要用type-c接口一个道理。

1.Model（模型）

模型是工具接入的核心，它提供智能能力和推理能力。工具的调用必须明确关联到具体的模型或模型实例，这样模型才能理解任务需求、处理输入，并生成输出。模型不仅负责理解用户问题，还会生成工具调用请求，决定使用哪个 Tool 以及使用哪些参数。

2. Context（上下文）

上下文是工具调用时提供给模型和工具的环境信息，包括用户输入、任务状态、历史交互以及外部知识。Context 保证工具调用的准确性，使模型在执行操作时参考必要的信息。例如，如果用户问"今天的日程安排"，Context 会包含日期、用户身份和已有日程数据，保证工具返回正确的结果。

3. Protocol（协议）

协议是模型与工具通信的标准化接口。它定义了工具调用的格式、参数结构、数据传输方式和返回值规范。统一的协议确保不同类型的工具能够被模型无缝调用，并且结果可以被模型正确解析和整合。例如，调用计算器工具或文档检索工具时，协议会规定参数如何传入（如 JSON），输出如何返回，以及错误处理方式。

总结：MCP 提供了工具接入的完整标准和方法。模型（Model）负责智能理解与生成，Context 提供调用所需的环境和信息，Protocol 确保工具调用标准化、可解析。通过 MCP，模型可以安全、稳定、可控地调用多种工具，实现扩展功能，突破自身知识和能力限制。

9.Agent

Agent 并不是一个简单的程序，而是一种 智能执行系统 。它将 大模型的理解与推理能力 与现实世界的 执行能力（调用工具/系统/函数） 有机结合，使大模型不再只是"会说"，而是"会做"。

1、什么是 Agent？核心定义

Agent 是大模型的 行动体与执行器 。它不仅能够理解自然语言，还可以根据目标和上下文 自主规划任务步骤 、调用工具或 API 完成操作，并将执行结果整合成自然语言输出。

普通大模型只负责"生成文字/预测下一个词"。

而 Agent 更进一步，它负责"把模型智能转化成实际行动"。

关键在于：

✦ 自主规划

✦ 自主调用工具

✦ 自洽结果输出

Agent = 大模型的大脑 + 行动系统 + 工具调用闭环

2、Agent 的能力维度（核心能力）

1）自主规划

Agent 能从自然语言输入中识别任务目标，自动拆解任务步骤。例如：

用户说："帮我生成出门清单"。

Agent 会自动理解要点：

✔ 获取用户当前位置

✔ 调用天气服务

✔ 判断天气情况

✔ 决定出门要带的物品

✔ 输出最终清单

这就不是一句话生成，而是一步步拆解和执行。

2）工具调用能力（and MCP标准）

Agent 能够调用外部"工具 / 函数 / API"。

这就是 Agent 真正在现实世界有用的关键。

使用统一的 MCP 接入标准：

名称	作用
Model（模型）	提供智能理解 & 计划
Context（上下文）	当前任务的关联信息
Protocol（协议）	定义工具调用规范

通过 MCP，Agent 能安全且可控地调用工具。

常见工具例子：

🔹 数据库查询 (ERP/CRM)

🔹 计算器/分析引擎

🔹 检索/知识库

🔹 第三方 API (地图/天气/支付)

这使 Agent 能突破模型记忆限制，查询实时数据。

3）上下文感知（Context）

Agent 不是孤立执行，它需要理解任务历史、用户状态、业务背景等信息。

"上下文"决定了 Agent 是否能正确规划：

例如：

"今天下午 2 点的会议要提醒我。"

Agent 必须知道：

用户是谁
当前日期
会议时间
是否已经提醒过

上下文是行动规划的基础。

4）结果整合 & 输出

工具调用后的返回只是原始数据。

Agent 的关键是把这些碎片化数据整合成输出结果并反馈用户。

例如：

复制代码

天气：有雨
位置：经纬度坐标
建议物品：雨伞、口罩

整合成：

"今天有雨，请记得带雨伞和口罩"

而不是展示代码、接口返回或原始 JSON。

3、Agent 工作流程（落地执行图）

结合你上传的截图和 Skill 文档示例，可构建如下流程：

用户输入

↓

大模型理解任务 -> 生成计划 & 工具调用意图

↓

调用定位工具 → 获取经纬度

↓

调用天气工具 → 获取天气数据

↓

调用其他业务工具 → 获取特定信息

↓

将返回结果聚合

↓

生成自然语言输出给用户

以上流程体现了：

📌 大模型负责规划逻辑

📌 工具负责真实世界操作

📌 结果由模型整合输出

4、Agent 类别

Agent 并不是一个单一模式，它可依据能力划分为两个层级：

☑ 简单 Agent

简单 Agent 是最小闭环。

它只具备：

✔ 单步任务执行

✔ 单一工具调用

✔ 生成自然语言输出

示例：

"今天上海的天气怎么样？"

输出：调用天气接口 -> 返回天气 -> 输出

⭐ 企业级 Agent

企业级 Agent 是复杂闭环执行系统，它具备：

📌 多步骤规划

📌 多工具协同调用

📌 强上下文处理

📌 可扩展到业务流程

它被用于智能客服、自动生成报表、供应链优化等复杂业务。

5、Agent 与常见框架的关系

现在业界有一些成熟的构建模式：

🔹 ReAct

模型结合推理 + 行动

在思考中生成行动指令

例如：

复制代码

思考：我需要天气信息
执行：调用天气工具

ReAct 使得 Agent 可以边思考边操作。

🔹 Plan-and-Execute

先制定计划，再执行

"分步骤规划 → 执行 → 汇总"

适合需要清晰步骤的大任务。

6、企业级 Agent 价值总结

Agent 的价值在于：

✨ 提升效率

自动流程替代人工操作

✨ 降低错误

统一执行标准 & 规范流程

✨ 增强扩展性

无需重新训练，添加工具即可

✨ 真实落地

模型不再是"生成语言"，而是 "解决问题"

总结

企业级 Agent 是大模型逻辑落地执行的桥梁，它不仅能理解用户意图，还能制定任务执行计划、调用内部系统或外部 API、整合多来源的数据，并输出可操作的结果。技术上强依赖 MCP 接口规范与工具生态，使得系统可扩展、可控、安全、效率高。

简单 Agent 则是业务快速落地的最小闭环模型，适用于单步工具调用。

二、Agent搭建

"今天上海的天气怎么样？"

输出：调用天气接口 -> 返回天气 -> 输出

⭐ 企业级 Agent

企业级 Agent 是复杂闭环执行系统，它具备：

📌 多步骤规划

📌 多工具协同调用

📌 强上下文处理

📌 可扩展到业务流程

它被用于智能客服、自动生成报表、供应链优化等复杂业务。

5、Agent 与常见框架的关系

现在业界有一些成熟的构建模式：

🔹 ReAct

模型结合推理 + 行动

在思考中生成行动指令

例如：

复制代码

思考：我需要天气信息
执行：调用天气工具

ReAct 使得 Agent 可以边思考边操作。

🔹 Plan-and-Execute

先制定计划，再执行

"分步骤规划 → 执行 → 汇总"

适合需要清晰步骤的大任务。

6、企业级 Agent 价值总结

Agent 的价值在于：

✨ 提升效率

自动流程替代人工操作

✨ 降低错误

统一执行标准 & 规范流程

✨ 增强扩展性

无需重新训练，添加工具即可

✨ 真实落地

模型不再是"生成语言"，而是 "解决问题"

总结

企业级 Agent 是大模型逻辑落地执行的桥梁，它不仅能理解用户意图，还能制定任务执行计划、调用内部系统或外部 API、整合多来源的数据，并输出可操作的结果。技术上强依赖 MCP 接口规范与工具生态，使得系统可扩展、可控、安全、效率高。

简单 Agent 则是业务快速落地的最小闭环模型，适用于单步工具调用。

二、Agent搭建

后续文章中