AI agent底层知识一篇通

AI agent:底层知识一篇通

文章目录

  • [AI agent:底层知识一篇通](#AI agent:底层知识一篇通)
  • 一、底层知识
    • 1.最底层------LLM
    • 2.Transformer
    • 3.Token(编码和解码的核心转换机制)
    • 超易懂图解
      • [1. 原始文本与 Token 的必要性](#1. 原始文本与 Token 的必要性)
      • [2. 分词与 BPE 算法](#2. 分词与 BPE 算法)
        • [2.1 为什么需要子词分词](#2.1 为什么需要子词分词)
        • [2.2 BPE(Byte Pair Encoding)核心原理](#2.2 BPE(Byte Pair Encoding)核心原理)
      • [3. Token → Token ID 映射](#3. Token → Token ID 映射)
      • [4. Embedding(向量化)](#4. Embedding(向量化))
      • [5. 位置编码(Positional Encoding)](#5. 位置编码(Positional Encoding))
      • [6. 最终输入编码器](#6. 最终输入编码器)
      • [7. 总结](#7. 总结)
    • 4.Context(上下文)
      • [1.什么是 Context(上下文)](#1.什么是 Context(上下文))
      • [2. Context 在 Transformer 中的体现](#2. Context 在 Transformer 中的体现)
      • [3. Self-Attention 与上下文建模](#3. Self-Attention 与上下文建模)
      • [4. Multi-Head Attention 与多视角上下文](#4. Multi-Head Attention 与多视角上下文)
      • [5. 长序列与上下文窗口](#5. 长序列与上下文窗口)
      • [6. 上下文对生成与理解的影响](#6. 上下文对生成与理解的影响)
      • [7. 总结大白话](#7. 总结大白话)
    • 5.RAG
      • [1. RAG 是什么](#1. RAG 是什么)
      • [2. RAG 的核心流程](#2. RAG 的核心流程)
      • [3. RAG 与 Transformer / LLM 的关系](#3. RAG 与 Transformer / LLM 的关系)
    • 6.Prompt(提示词)
      • [Prompt Engineer](#Prompt Engineer)
        • [1. 定义与作用](#1. 定义与作用)
        • [2.Prompt 类型](#2.Prompt 类型)
        • [3. Prompt 设计原则与技巧](#3. Prompt 设计原则与技巧)
      • Prompt详解
    • 7.tool(工具、函数)
    • 8.MCP(实战后续文章中)
      • 1.Model(模型)
      • [2. Context(上下文)](#2. Context(上下文))
      • [3. Protocol(协议)](#3. Protocol(协议))
    • 9.Agent
      • [1、什么是 Agent?核心定义](#1、什么是 Agent?核心定义)
      • [2、Agent 的能力维度(核心能力)](#2、Agent 的能力维度(核心能力))
      • [3、Agent 工作流程(落地执行图)](#3、Agent 工作流程(落地执行图))
      • [4、Agent 类别](#4、Agent 类别)
        • [☑ 简单 Agent](#☑ 简单 Agent)
        • [⭐ 企业级 Agent](#⭐ 企业级 Agent)
      • [5、Agent 与常见框架的关系](#5、Agent 与常见框架的关系)
      • [🔹 ReAct](#🔹 ReAct)
      • [🔹 Plan-and-Execute](#🔹 Plan-and-Execute)
      • [6、企业级 Agent 价值总结](#6、企业级 Agent 价值总结)
  • 二、Agent搭建
        • [⭐ 企业级 Agent](#⭐ 企业级 Agent)
      • [5、Agent 与常见框架的关系](#5、Agent 与常见框架的关系)
      • [🔹 ReAct](#🔹 ReAct)
      • [🔹 Plan-and-Execute](#🔹 Plan-and-Execute)
      • [6、企业级 Agent 价值总结](#6、企业级 Agent 价值总结)
  • 二、Agent搭建

一、底层知识

1.最底层------LLM

全称:Large Language Model (大语言模型)

简称:大模型

内部架构:基本上现在所有大模型都基于transformer这套架构训练出来的。

2.Transformer

是一种以注意力机制为核心的序列到序列深度学习模型架构,擅长捕捉长距离依赖,支持高效并行训练,是现代大语言模型(LLM)的基础。

图解

  1. 输入部分

Input Embedding:将输入的词(Tokens)转换成向量。

Positional Encoding:加入位置信息,因为 Transformer 不使用 RNN,需要知道词序列顺序。

  1. 编码器(Encoder)

多层堆叠(N×)

每层包括:

  1. Multi-Head Self-Attention(多头自注意力):捕捉序列中各词之间的关系。
  2. Add & Norm:残差连接 + 归一化。
  3. Feed Forward(前馈网络):对每个位置独立进行非线性变换。
  4. Add & Norm:再一次残差连接 + 归一化。

输出:生成编码表示(Memory),传给解码器使用。

  1. 解码器(Decoder)

多层堆叠(N×)

每层包括:

  1. Masked Multi-Head Self-Attention(掩码多头自注意力):保证生成时只能看到前面的输出。
  2. Add & Norm
  3. Encoder-Decoder Cross-Attention(编码-解码注意力):利用编码器的输出信息。
  4. Add & Norm
  5. Feed Forward
  6. Add & Norm

输出:每个位置生成预测向量。

  1. 输出层

Linear:将解码器输出映射到词表维度。

Softmax:生成概率分布,预测下一个词。


核心思想

  • Encoder-Decoder + Attention 取代了 RNN,支持并行计算。
  • 多头注意力可以同时关注序列不同位置的信息。
  • 解码器是自回归的:生成词时只能参考左侧已生成内容。

🔴简而言之,就像是一个超级聪明的"信息整理器+思考器",它专门用来处理文字、句子、甚至代码或者图片序列。

上面这张图表达的意思可以理解为:

逻辑和核心思想:

输入句子:我 爱 AI

  1. 输入嵌入和位置编码

    每个词被转换成向量(Embedding),再加上位置信息(Positional Encoding)让模型知道词序。

    在图中,输入序列经过"词嵌入 + 位置编码"进入编码器。

  2. 编码器(Encoder × N)文字➡️数字(切分和映射)

    句子向量经过多层编码器,每层包含:

    多头自注意力(Multi-Head Self-Attention)→理解句子中词之间的关系

    Add & Norm(残差连接 + 层归一化)

    前馈网络(Feed Forward)+ Add & Norm

    输出编码表示(Memory),包含整句话的上下文信息。

  3. 目标序列右移

    解码器在训练时,需要右移目标序列(Shifted Target),例如 <bos> 我 love AI,保证解码器自回归生成。

  4. 解码器(Decoder × N)数字➡️文字(映射)

    解码器每层包含:

    掩码多头自注意力(Masked Multi-Head Self-Attention)→防止看到未来词

    编码器-解码器注意力(Cross-Attention)→利用编码器 Memory

    前馈网络 + Add & Norm

  5. 输出层预测

    解码器输出向量经过 Linear + Softmax → 预测每个词的概率(Predicted Tokens)

    图中示例:模型预测"我 love AI"的下一个词概率分布。

  6. 训练循环

    预测输出 + 目标标签 → 计算交叉熵损失(Cross-Entropy Loss)

    反向传播(Backprop)更新参数 → 使用 Optimizer(Adam/AdamW)

    训练循环持续迭代,提高模型预测准确率。

总结

聚焦例子:输入一句话 "我 爱 AI",Transformer 学会根据上下文理解关系,并逐词生成输出序列。

逻辑串起来

  • 输入句子 → Encoder 理解 → Decoder 生成 → Softmax 预测概率 → 与真实标签比对 → 反向传播更新参数 → 重复训练循环。

  • 训练目标是让模型逐步学会生成正确的词序列,捕捉上下文依赖关系。

例子解释

假设我们用 Transformer 来处理一句中文句子输入

例如:输入句子:我 爱 AI

首先,模型把每个词变成向量,就像把文字翻译成机器能理解的数字。为了让模型知道词的顺序,它还会给每个词加上位置标签,这样模型知道"我"在最前面,"爱"在中间。

接着,这些词向量进入编码器,编码器就像一个聪明的大脑,会同时观察整个句子中每个词之间的关系。它使用自注意力机制,让每个词可以看到其他词的信息,然后经过前馈网络和归一化处理,把整个句子的意思整理成一组向量。

这些向量传到解码器,解码器就像模型的写作系统,它要根据编码器理解的内容逐步生成输出。训练时,目标句子会被右移一个词,让解码器一次只看到前面已经生成的词。解码器先看自己生成过的词,然后参考编码器传来的信息,生成下一个词的预测向量,再经过线性层和 Softmax 计算出每个词的概率。

模型把预测出来的词和真实的目标词进行对比,计算损失,然后用反向传播调整内部参数。这个过程重复很多次,模型就慢慢学会在给定句子上下文的情况下正确预测下一个词。

最终,经过训练的 Transformer 能够理解整个句子,抓住词与词之间的关系,并逐步生成输出句子,就像一个会同时理解和写作的超级翻译官一样。

3.Token(编码和解码的核心转换机制)

大模型处理文本最基本的单位

大模型的输入输出不是文字,而是一串数字,需要通过tokenizer进行转换

超易懂图解

1. 原始文本与 Token 的必要性

在自然语言处理任务中,原始文本(比如"张三的文章怎么样")是人类语言,计算机无法直接理解。Transformer 需要处理的是数字向量 ,所以必须先将文字切分成可识别的最小单位,也就是 Token。Token 可以是单个字、单词,或者子词(subword)。这个步骤是 Transformer 的第一步,也是整个文本处理的基础。

2. 分词与 BPE 算法

2.1 为什么需要子词分词

直接按字或词切分会出现两种问题:

  1. 词表膨胀:每个词作为一个 Token,词表非常大,低频词几乎没有训练效果。
  2. 未知词问题:训练集中未出现的词无法处理。
2.2 BPE(Byte Pair Encoding)核心原理

BPE 是子词分词的一种算法,逻辑是从最小单位开始(字符),不断把出现频率最高的连续字符组合成新符号,直到达到目标词表大小。

例如句子"张三的文章",初始按字切分:[张][三][的][文][章]

  • 高频组合 [文章] 会被加入词表
  • 低频组合保持拆分 [文][章]

BPE 的优点:

处理未知词时能拆成已有子词组合。

词表小而高效。

保留词语语义信息。

3. Token → Token ID 映射

每个 Token 都会被映射为唯一整数 Token ID。这是模型实际可以处理的数字表示。

例子:

复制代码
张三 → 41
的 → 36
文章 → 52
怎么样 → 9
  • Token ID 仅是索引,模型真正计算的是后续查表得到的 Embedding 向量

4. Embedding(向量化)

Token ID 查表得到向量表示,每个向量通常是高维的(如 512 维)。

这个向量不仅标识 Token,还会在训练中学习词语的语义信息。

对 Transformer 来说,Embedding 是让文字变成"可计算"的形式。

5. 位置编码(Positional Encoding)

Transformer 并没有循环或卷积结构,所以需要位置信息告诉模型序列中每个 Token 的顺序。

位置编码通过正弦和余弦函数生成向量,加入到 Token 向量中:

复制代码
PE(pos, 2i)   = sin(pos / 10000^(2i/d_model))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

这样模型既能理解语义,又能理解顺序。

6. 最终输入编码器

每个 Token 经历:

复制代码
原始文本 → BPE Token → Token ID → Embedding 向量 → + 位置编码

形成 输入向量序列

复制代码
[张三向量+位置0, 的向量+位置1, 文章向量+位置2, 怎么样向量+位置3]

这个序列进入编码器,开始进行自注意力运算和前馈网络处理,生成上下文丰富的表示。

7. 总结

完整的 Token 生成机制逻辑:

  1. 文本切分:用 BPE 把文本拆成子词 Token
  2. Token 映射:每个 Token 对应唯一 Token ID
  3. Embedding:Token ID 转向量
  4. 位置编码:向量加上位置信息
  5. 编码器输入:形成可供 Transformer 理解的向量序列

简单比喻:Tokenizer 就像"速记翻译官",把人类语言拆分成小块子词(Token),再翻译成数字(ID + 向量)供 Transformer 处理,每个步骤都有逻辑递进,从最小单位到模型可理解的形式。

4.Context(上下文)

1.什么是 Context(上下文)

在自然语言处理(NLP)中,上下文(Context)指一段文本中,当前词或句子周围的语义信息。换句话说,就是模型生成或理解某个词时,需要参考的前后文信息。

短期上下文:当前句子或短语。

长期上下文:前几句甚至整个文档。

在 Transformer / LLM 中,上下文决定了模型对词义的理解和生成结果。

2. Context 在 Transformer 中的体现

编码器中的上下文

编码器处理输入序列时,每个词的表示不仅包含自身信息,还通过 自注意力机制(Self-Attention) 融合了整个序列中其他词的信息。

例如输入句子:"张三的文章怎么样",编码器在生成"文章"的向量时,会注意到"张三""的""怎么样",这些都是上下文信息。

解码器中的上下文

解码器生成每个词时,除了参考编码器输出(输入的上下文),还会参考已经生成的前面词(自回归上下文)。

这种机制确保:

  1. 模型生成的句子前后逻辑一致。
  2. 当前词生成依赖前文,同时结合输入上下文。

3. Self-Attention 与上下文建模

自注意力是 Transformer 捕捉上下文的核心。

  • 原理

    每个词生成 Query/Key/Value 向量。

    Query 对应当前词,Key/Value 对应整个序列。

    通过 Q·K^T 计算每个词对当前词的影响力(注意力分数)。

    将注意力权重应用到 Value 上,得到融合了全局上下文的词向量。

  • 结果

    每个词的表示包含了整个序列的语义信息。

    模型不仅知道词本身,还知道它在上下文里的意义。

4. Multi-Head Attention 与多视角上下文

**多头注意力(Multi-Head Attention)**允许模型从不同角度理解上下文:

每个注意力头关注不同关系,如主语-谓语、定语-名词等。

拼接所有头的输出,得到丰富的上下文表示。

这就是为什么 LLM 能处理复杂语言现象,比如歧义词和长距离依赖。

5. 长序列与上下文窗口

LLM 处理上下文时有 上下文长度限制

例如 GPT-3 最大 2048 token,GPT-4 可达到 32k token。

超过长度的部分会被截断或滑动窗口处理。

在训练阶段,模型学习 在给定上下文窗口下预测下一个词

在生成阶段,模型利用前面生成的词作为上下文,自回归生成后续词。

6. 上下文对生成与理解的影响

生成任务

上下文决定了模型输出的合理性。

缺乏上下文 → 生成不连贯、逻辑不一致。

理解任务

上下文帮助模型正确理解多义词或指代关系。

例如"它很大",上下文决定"它"指代什么。

7. 总结大白话

Transformer / LLM 的核心能力之一就是 建模上下文

编码器通过自注意力聚合输入序列信息,解码器通过自回归和交叉注意力结合输入上下文。

上下文决定模型理解和生成效果,是模型智能的基础。

简单比喻:

上下文就像在读一篇文章时,你记住前面写了什么,然后接着写或理解下一句话。

Transformer 通过注意力机制把所有前面词的信息自动融入当前词的表示。

5.RAG

1. RAG 是什么

**RAG(Retrieval-Augmented Generation)**是一种结合 检索(Retrieval)生成(Generation) 的语言模型架构。

目标:解决大语言模型在知识有限或上下文窗口受限时,无法准确回答事实性问题的问题。

核心思想:模型不仅依赖自己内部记忆(预训练参数),还可以从外部知识库检索相关信息,然后再生成回答。

2. RAG 的核心流程

假设你问:"张三的最新研究成果是什么?"

  1. 查询生成(Query Generation)

    模型先将用户输入(问题)编码为向量表示。

    Transformer / LLM 将问题转成向量查询,这一步本质上利用了之前讲的 Token → Embedding → 上下文向量

  2. 知识检索(Retrieval)

    用生成的向量在知识库中检索最相关的文档或段落。

    知识库可以是:文档集合(PDF、文章),数据库,互联网索引,返回 top-k 个相关内容。

  3. 增强上下文(Augmented Context)

    将检索到的文本拼接或编码成上下文,供生成模型使用。

    Transformer 解码器在生成回答时,可以同时关注:

    原始问题上下文(前文问题)

    检索到的外部文档上下文

    这样生成模型的"上下文窗口"被动态扩展。

  4. 生成回答(Generation)

    解码器根据增强后的上下文逐词生成回答。

    自注意力机制确保:

    每个生成的词参考原问题和检索内容

    保持逻辑一致和事实正确

  5. 反馈/迭代(可选)

    用户可对生成结果进行反馈,进一步调整检索或生成策略。

3. RAG 与 Transformer / LLM 的关系

组件 对应概念
用户输入 → Token → Embedding 上下文建模:Transformer 将问题转为上下文向量
检索模块 外部上下文扩展:增加原始输入上下文无法覆盖的知识
解码器生成 LLM 的自回归生成:结合问题向量 + 检索向量生成回答
注意力机制 用于融合原问题与检索文档,实现增强上下文理解

总结

Transformer / LLM 内部的上下文是模型生成回答的基础。

RAG 的增强上下文通过外部知识检索把模型上下文"扩展"到训练语料之外的事实信息。

换句话说,RAG 是 "上下文增强版的 LLM",结合了内部知识和外部知识。

通俗来说,普通 LLM:像一个聪明的人,回答问题只靠记忆。

​ RAG:聪明的人 + 资料库,你问问题时,他会先去查资料,再结合记忆回答。

​ Transformer 的自注意力机制仍然在核心负责理解问题和生成回答,只不过现在的上下文更丰富

6.Prompt(提示词)

给大模型发送的具体问题或指令,并不是一个复杂的东西:好的prompt是清晰的,明确的,具体的

Prompt Engineer

1. 定义与作用

Prompt 工程是为大语言模型(LLM)设计和优化输入的过程,目的是让模型生成符合预期的输出

Prompt 是模型生成内容时的上下文条件。用户输入的文本(User Prompt)告诉模型要做什么,而系统配置的指令(System Prompt)告诉模型怎么做。结合两者,模型才能在理解和生成上表现出智能与可控性。

2.Prompt 类型

User Prompt(用户提示)

直接来自用户的任务或问题。

决定模型要完成的具体工作或回答内容。

示例:用户输入"请总结这篇文章的核心观点",或者"写一首关于春天的诗"。

System Prompt(系统提示)

模型运行时的后台指令,定义行为规则、人设或输出风格。

决定模型生成的方式、风格和逻辑约束。

示例:你是一位耐心的数学老师。当学生问问题时,不直接给出答案,而是一步步引导学生思考,帮助理解解题思路。

System Prompt 可以在整个会话或任务中持续影响模型行为。


3. Prompt 设计原则与技巧
  1. 明确任务:清楚告诉模型需要做什么,例如"生成总结""回答问题""翻译文本"。
  2. 提供上下文:包括用户问题、相关背景信息或外部文档,帮助模型理解完整语义。
  3. 控制输出风格:通过 System Prompt 设置行为规则、口吻、风格或格式要求。
  4. 示例引导:使用 Few-Shot Prompt 提供示例,让模型学习如何回答。
  5. 分步提示(Chain-of-Thought):引导模型先分析或思考步骤,再生成答案,提高推理能力。

结合 User Prompt 与 System Prompt 的 Prompt 工程方法,能够让模型在理解和生成中同时兼顾任务目标行为约束。用户输入告诉模型"做什么",系统指令告诉模型"怎么做",两者共同形成模型的增强上下文,实现准确、连贯且符合规则的输出。

Prompt详解

1.在大语言模型中,Prompt 是人类与模型沟通的桥梁,它就是模型生成内容时的输入文本。

你给模型的任何指令、问题或者示例,都是 Prompt。

可以把它理解为模型的大脑收到的"提示信息",这条信息告诉模型你希望它完成什么样的任务、回答什么样的问题或输出什么风格的内容。

Prompt 的内容直接决定了模型生成结果的方向和逻辑。

2.当模型接收到 Prompt 时,它首先会将文本拆解成 Token,也就是模型能够理解的最小单元。

3.解码器在生成输出时,会同时参考编码器输出的上下文和已经生成的词。这种自回归生成机制保证了生成序列前后逻辑一致,同时参考输入上下文,使输出更准确、更自然。解码器在生成每个词时,模型的自注意力机制会对 Prompt 中的每个 Token 进行加权计算,确保生成的词既符合语义,又符合整体上下文逻辑。

4.Prompt 的设计直接影响生成效果。

明确的指令、合理的示例、充分的上下文都能让模型生成更符合预期的内容。

例如,提供示例和问题的组合,可以让模型学习如何在特定任务中生成答案,这就是少量示例(Few-Shot Learning)提示;

直接告诉模型任务目标而不提供示例,则是零样本(Zero-Shot Learning)提示。

高级提示技术,如 Chain-of-Thought 提示,可以引导模型先"思考步骤",再给出答案,增强推理能力。

7.在 RAG(Retrieval-Augmented Generation)等增强上下文的系统中,Prompt 不仅包括用户输入,还会被扩展为增强上下文,通过外部知识库检索相关文档加入到生成上下文中。这样,模型不仅依赖内部知识,还能结合外部信息生成更精确和丰富的回答。可以理解为 Prompt 是上下文的起点,它为模型提供了生成的条件,而检索到的外部内容则丰富了上下文,使模型能够超越自身参数限制。

​ 总的来说,Prompt 是 LLM 和 Transformer 模型理解和生成的核心,它通过 Token 化、向量化、位置编码和上下文融合,指导模型逐步生成符合人类期望的内容。好的 Prompt 能清楚地传递任务意图、提供充分的上下文,并结合外部知识扩展,使模型能够在理解、推理和生成上表现出最佳能力。Prompt 与上下文紧密结合,是大语言模型智能化表现的基础。

7.tool(工具、函数)

在实际应用中,大模型本身有局限性 。例如当用户提问"实时天气""路线规划"或者一些依赖外部数据的问题时,模型内部的预训练参数并不能提供实时答案,因为它无法感知当前环境或最新数据。这时候就需要借助 Tool(函数/外部能力),将模型生成能力与外部资源结合。

Tool 本质上是一个函数接口,它可以被模型调用,用来获取实时信息、执行计算或访问数据库。用户的问题经过大模型理解后,模型会生成调用 Tool 的请求,例如指明要调用哪种工具、需要哪些参数,然后 Tool 执行操作并返回结果。最终,模型将 Tool 返回的内容整合进回答中,并呈现给用户。

在这个流程中,不同角色协作

  1. 用户提供任务或问题,例如"帮我查一下今天上海的路线"。
  2. 大模型负责理解任务,将用户输入转换为向量化表示,并决定调用哪些工具。
  3. 工具接收模型请求,执行具体操作,比如计算最短路线、查询数据库或调用 API。
  4. 平台/系统负责承上启下,将模型与工具连接,并将执行结果返回给模型。
  5. 大模型将工具返回的结果整合,生成最终自然语言输出,反馈给用户。

为了让流程更直观,我们可以用一些替代的通用工具示例来说明,比如:

  • 数据分析工具:计算平均值、统计趋势
  • 文档检索工具:查询指定文档或知识库内容
  • 计算工具:执行数学公式或科学计算
  • 地图工具:规划路线或距离计算

通过这种方式,Tool 不仅扩展了大模型的能力,还使其能够执行实时、复杂或超出训练数据范围的任务。大模型负责理解与规划,Tool 提供外部执行能力,两者结合就能实现智能化应用。

8.MCP(实战后续文章中)

所有工具的同意接入标准,类似于大部分手机都要用type-c接口一个道理。

1.Model(模型)

模型是工具接入的核心,它提供智能能力和推理能力。工具的调用必须明确关联到具体的模型或模型实例,这样模型才能理解任务需求、处理输入,并生成输出。模型不仅负责理解用户问题,还会生成工具调用请求,决定使用哪个 Tool 以及使用哪些参数。

2. Context(上下文)

上下文是工具调用时提供给模型和工具的环境信息,包括用户输入、任务状态、历史交互以及外部知识。Context 保证工具调用的准确性,使模型在执行操作时参考必要的信息。例如,如果用户问"今天的日程安排",Context 会包含日期、用户身份和已有日程数据,保证工具返回正确的结果。

3. Protocol(协议)

协议是模型与工具通信的标准化接口。它定义了工具调用的格式、参数结构、数据传输方式和返回值规范。统一的协议确保不同类型的工具能够被模型无缝调用,并且结果可以被模型正确解析和整合。例如,调用计算器工具或文档检索工具时,协议会规定参数如何传入(如 JSON),输出如何返回,以及错误处理方式。

总结:MCP 提供了工具接入的完整标准和方法。模型(Model)负责智能理解与生成,Context 提供调用所需的环境和信息,Protocol 确保工具调用标准化、可解析。通过 MCP,模型可以安全、稳定、可控地调用多种工具,实现扩展功能,突破自身知识和能力限制。

9.Agent

Agent 并不是一个简单的程序,而是一种 智能执行系统 。它将 大模型的理解与推理能力 与现实世界的 执行能力(调用工具/系统/函数) 有机结合,使大模型不再只是"会说",而是"会做"。

1、什么是 Agent?核心定义

Agent 是大模型的 行动体与执行器 。它不仅能够理解自然语言,还可以根据目标和上下文 自主规划任务步骤调用工具或 API 完成操作,并将执行结果整合成自然语言输出。

普通大模型只负责"生成文字/预测下一个词"。

而 Agent 更进一步,它负责"把模型智能转化成实际行动"。

关键在于:

✦ 自主规划

✦ 自主调用工具

✦ 自洽结果输出

Agent = 大模型的大脑 + 行动系统 + 工具调用闭环

2、Agent 的能力维度(核心能力)

1)自主规划

Agent 能从自然语言输入中识别任务目标,自动拆解任务步骤。例如:

用户说:"帮我生成出门清单"。

Agent 会自动理解要点:

✔ 获取用户当前位置

✔ 调用天气服务

✔ 判断天气情况

✔ 决定出门要带的物品

✔ 输出最终清单

这就不是一句话生成,而是一步步拆解和执行。

2)工具调用能力(and MCP标准)

Agent 能够调用外部"工具 / 函数 / API"。

这就是 Agent 真正在现实世界有用的关键。

使用统一的 MCP 接入标准:

名称 作用
Model(模型) 提供智能理解 & 计划
Context(上下文) 当前任务的关联信息
Protocol(协议) 定义工具调用规范

通过 MCP,Agent 能安全且可控地调用工具。

常见工具例子:

🔹 数据库查询 (ERP/CRM)

🔹 计算器/分析引擎

🔹 检索/知识库

🔹 第三方 API (地图/天气/支付)

这使 Agent 能突破模型记忆限制,查询实时数据。

3)上下文感知(Context)

Agent 不是孤立执行,它需要理解任务历史、用户状态、业务背景等信息。

"上下文"决定了 Agent 是否能正确规划:

例如:

"今天下午 2 点的会议要提醒我。"

Agent 必须知道:

  • 用户是谁
  • 当前日期
  • 会议时间
  • 是否已经提醒过

上下文是行动规划的基础。

4)结果整合 & 输出

工具调用后的返回只是原始数据。

Agent 的关键是把这些碎片化数据整合成输出结果并反馈用户。

例如:

复制代码
天气:有雨
位置:经纬度坐标
建议物品:雨伞、口罩

整合成:

"今天有雨,请记得带雨伞和口罩"

而不是展示代码、接口返回或原始 JSON。

3、Agent 工作流程(落地执行图)

结合你上传的截图和 Skill 文档示例,可构建如下流程:

用户输入

大模型理解任务 -> 生成计划 & 工具调用意图

调用定位工具 → 获取经纬度

调用天气工具 → 获取天气数据

调用其他业务工具 → 获取特定信息

将返回结果聚合

生成自然语言输出给用户

以上流程体现了:

📌 大模型负责规划逻辑

📌 工具负责真实世界操作

📌 结果由模型整合输出

4、Agent 类别

Agent 并不是一个单一模式,它可依据能力划分为两个层级:

☑ 简单 Agent

简单 Agent 是最小闭环。

它只具备:

✔ 单步任务执行

✔ 单一工具调用

✔ 生成自然语言输出

示例:

"今天上海的天气怎么样?"

输出:调用天气接口 -> 返回天气 -> 输出


⭐ 企业级 Agent

企业级 Agent 是复杂闭环执行系统,它具备:

📌 多步骤规划

📌 多工具协同调用

📌 强上下文处理

📌 可扩展到业务流程

它被用于智能客服、自动生成报表、供应链优化等复杂业务。

5、Agent 与常见框架的关系

现在业界有一些成熟的构建模式:

🔹 ReAct

模型结合推理 + 行动

在思考中生成行动指令

例如:

复制代码
思考:我需要天气信息
执行:调用天气工具

ReAct 使得 Agent 可以边思考边操作。

🔹 Plan-and-Execute

先制定计划,再执行

"分步骤规划 → 执行 → 汇总"

适合需要清晰步骤的大任务。

6、企业级 Agent 价值总结

Agent 的价值在于:

提升效率

自动流程替代人工操作

降低错误

统一执行标准 & 规范流程

增强扩展性

无需重新训练,添加工具即可

真实落地

模型不再是"生成语言",而是 "解决问题"

总结

企业级 Agent 是大模型逻辑落地执行的桥梁,它不仅能理解用户意图,还能制定任务执行计划、调用内部系统或外部 API、整合多来源的数据,并输出可操作的结果。技术上强依赖 MCP 接口规范与工具生态,使得系统可扩展、可控、安全、效率高。

简单 Agent 则是业务快速落地的最小闭环模型,适用于单步工具调用。

二、Agent搭建

"今天上海的天气怎么样?"

输出:调用天气接口 -> 返回天气 -> 输出


⭐ 企业级 Agent

企业级 Agent 是复杂闭环执行系统,它具备:

📌 多步骤规划

📌 多工具协同调用

📌 强上下文处理

📌 可扩展到业务流程

它被用于智能客服、自动生成报表、供应链优化等复杂业务。

5、Agent 与常见框架的关系

现在业界有一些成熟的构建模式:

🔹 ReAct

模型结合推理 + 行动

在思考中生成行动指令

例如:

复制代码
思考:我需要天气信息
执行:调用天气工具

ReAct 使得 Agent 可以边思考边操作。

🔹 Plan-and-Execute

先制定计划,再执行

"分步骤规划 → 执行 → 汇总"

适合需要清晰步骤的大任务。

6、企业级 Agent 价值总结

Agent 的价值在于:

提升效率

自动流程替代人工操作

降低错误

统一执行标准 & 规范流程

增强扩展性

无需重新训练,添加工具即可

真实落地

模型不再是"生成语言",而是 "解决问题"

总结

企业级 Agent 是大模型逻辑落地执行的桥梁,它不仅能理解用户意图,还能制定任务执行计划、调用内部系统或外部 API、整合多来源的数据,并输出可操作的结果。技术上强依赖 MCP 接口规范与工具生态,使得系统可扩展、可控、安全、效率高。

简单 Agent 则是业务快速落地的最小闭环模型,适用于单步工具调用。

二、Agent搭建

后续文章中

相关推荐
人工智能培训1 小时前
AI人工智能未来发展趋势
人工智能·深度学习·机器学习·docker·容器
没有梦想的咸鱼185-1037-16631 小时前
农业普查大数据与AI融合的数字农业与粮食安全智慧决策
大数据·人工智能·chatgpt·数据分析
AI观望者1 小时前
源码级拆解 Hermes Agent:记忆系统、上下文压缩与 MCP 集成的工程实现
人工智能·架构
Mr数据杨1 小时前
AIGC工具平台-StoryBoard故事板
人工智能·aigc·php
指掀涛澜天下惊1 小时前
AI 基础知识十六 Decoder-only 训练诗集示例
人工智能·transformer·decoder-only
Cosolar1 小时前
2026年全球向量数据库技术全景与架构演进深度解析报告
数据库·人工智能·架构·agent·智能体
__log1 小时前
AI对话系统中集成可视化图表能力的战略价值与实施路径深度分析
人工智能
货拉拉技术2 小时前
私域转化率翻倍的秘密:我们把多模态Agent融进了私域营销
人工智能·算法·设计模式
__log2 小时前
AI 辅助编码时代的产研测全链路 Harness 规范系统
人工智能