AI学习——Agent 基础概念

Agent 基础概念

- [一、什么是 AI Agent（智能体）](#一、什么是 AI Agent（智能体）)
- - [1. 通俗定义](#1. 通俗定义)
  - [2. 核心区别](#2. 核心区别)
  - [3. 核心价值](#3. 核心价值)
- [二、AI Agent 五大核心组件（标准架构）](#二、AI Agent 五大核心组件（标准架构）)
- - [1. 大模型 LLM（大脑）](#1. 大模型 LLM（大脑）)
  - [2. 记忆 Memory（记忆系统）](#2. 记忆 Memory（记忆系统）)
  - [3. 工具 Tools（手脚）](#3. 工具 Tools（手脚）)
  - [4. 规划与行动 Planning & Acting（执行逻辑）](#4. 规划与行动 Planning & Acting（执行逻辑）)
  - [5. 反思与观察 Reflection & Observation（闭环）](#5. 反思与观察 Reflection & Observation（闭环）)
- [三、Agent 标准工作流程](#三、Agent 标准工作流程)
- [四、主流 Agent 运行范式（两类经典架构）](#四、主流 Agent 运行范式（两类经典架构）)
- - [1. ReAct 范式（最主流、入门首选）](#1. ReAct 范式（最主流、入门首选）)
  - [2. Plan-and-Execute 范式（规划-执行）](#2. Plan-and-Execute 范式（规划-执行）)
- [五、Agent 分类（按能力/场景划分）](#五、Agent 分类（按能力/场景划分）)
- - [1. 按能力复杂度](#1. 按能力复杂度)
  - [2. 按应用场景](#2. 按应用场景)
- [六、Agent 核心优势 & 现存局限](#六、Agent 核心优势 & 现存局限)
- [七、LangChain 基础 Agent 入门实战](#七、LangChain 基础 Agent 入门实战)
- - [1. 安装依赖](#1. 安装依赖)
  - [2. 完整代码](#2. 完整代码)
  - [3. 代码说明](#3. 代码说明)
  - [4. 运行日志解读](#4. 运行日志解读)
- [八、Agent 与 RAG、Workflow 的区别](#八、Agent 与 RAG、Workflow 的区别)
- - [1. Workflow（固定工作流）](#1. Workflow（固定工作流）)
  - [2. RAG（检索增强生成）](#2. RAG（检索增强生成）)
  - [3. Agent（智能体）](#3. Agent（智能体）)

一、什么是 AI Agent（智能体）

1. 通俗定义

传统大模型：被动应答，你问一句、它答一句，能力局限在自身训练知识，不会主动思考、不会调用外部工具、不会分步解决复杂问题。

AI Agent（智能体） ：具备自主规划、思考、决策、工具调用、循环执行、自我纠错 能力的大模型应用。

简单总结：能自己拆解任务、自己选工具、自己一步步完成目标的 AI。

2. 核心区别

普通对话大模型	AI Agent
被动接收指令，单次输出	主动思考、分步执行、循环迭代
无法使用外部工具（搜索/计算/查库）	内置工具系统，可灵活调用外部能力
复杂任务容易逻辑断裂	任务拆解、规划、复盘，完成长链路任务
无记忆/行动记录	完整行动轨迹、上下文记忆

3. 核心价值

突破大模型上下文限制、知识截止、能力单一三大短板，落地自动化任务：自动办公、智能客服、数据分析、网络搜索、机器人流程等。

二、AI Agent 五大核心组件（标准架构）

主流 Agent（LangChain、AutoGPT、Dify）均由这 5 部分组成，是理解 Agent 的关键。

1. 大模型 LLM（大脑）

角色：决策中心，负责思考、判断、推理、生成指令。
工作：分析用户目标、判断下一步该做什么、解析工具返回结果、生成最终答案。
选型：通用对话模型即可（GPT、GLM、通义、Qwen 等）。

2. 记忆 Memory（记忆系统）

Agent 的"短期/长期记忆"，区分两类：

短期记忆：对话历史、每一步行动记录，保证上下文连贯，不会忘记前面做了什么。
长期记忆 ：知识库、用户偏好、历史任务记录，一般对接向量数据库（Chroma/FAISS）。

常见实现：ConversationBufferMemory、VectorStoreRetrieverMemory。

3. 工具 Tools（手脚）

Agent 能力的延伸，LLM 本身做不到的事，交给工具完成 。

常用工具分类：

信息查询：联网搜索、文档检索（RAG）
能力计算：计算器、代码解释器
操作系统：文件读写、接口调用、工单提交
交互工具：发送消息、调用第三方API

核心逻辑：LLM 只负责决策，工具负责执行。

4. 规划与行动 Planning & Acting（执行逻辑）

这是 Agent 和普通对话最大的区别：

规划：把复杂大目标 拆分成多个可执行小步骤。
例：目标「整理本周销售数据并统计总额」→ 拆分：读取文件 → 提取数据 → 求和计算 → 生成总结。
行动：按照规划依次调用工具、执行操作。

5. 反思与观察 Reflection & Observation（闭环）

完整闭环流程：

执行工具 → 拿到返回结果（观察）
LLM 分析结果：任务是否完成？是否出错？是否需要继续调用工具？
调整下一步行动（反思）
循环直到任务结束

经典闭环：思考 → 行动 → 观察 → 再思考

三、Agent 标准工作流程

以「用户让 Agent 查询今天天气」为例，完整流转：

接收目标：用户提问：查询北京今日天气
记忆加载：读取历史对话、相关上下文
思考决策（LLM）：自身无实时天气数据，需要调用「搜索工具」
调用工具：发起网络搜索，传入参数「北京今日天气」
获取结果（观察）：拿到搜索返回的天气文本
反思判断（LLM）：信息完整，无需继续调用工具
整合输出：整理结果，回复用户
记录记忆：保存本次对话与行动日志

如果是复杂任务（多步骤），会重复 思考→调用工具→观察 循环。

四、主流 Agent 运行范式（两类经典架构）

1. ReAct 范式（最主流、入门首选）

Reason + Act（推理 + 行动）

核心理念：把「思考过程」和「工具调用动作」显式写出来，LLM 交替输出思考内容 和执行动作。
特点：结构简单、易调试、工业界使用最多，LangChain 默认 Agent 就是 ReAct。
适用：绝大多数常规任务、工具调用场景。

2. Plan-and-Execute 范式（规划-执行）

先整体规划，再分步执行

第一步：LLM 先把整个任务拆成完整步骤清单
第二步：Agent 按清单依次执行每一步
执行中可动态修正计划

特点：擅长长链路、复杂多步骤任务（如数据分析、项目流程、自动化办公）。
缺点：简单任务会冗余，适合复杂场景。

入门优先学习 ReAct Agent。

五、Agent 分类（按能力/场景划分）

1. 按能力复杂度

基础工具型 Agent：仅调用单个/少量工具，单循环执行（入门级别），例：带搜索、计算器的问答助手。
复杂多步骤 Agent：多工具组合、多轮循环、动态改计划，例：自动数据分析、自动化运维。
自主 Agent（高阶）：无人工干预，长期自主运行，代表：AutoGPT、GPT4o 自主模式。

2. 按应用场景

问答检索 Agent：结合 RAG + 搜索，智能查资料、解答问题
办公自动化 Agent：读写文件、表格处理、邮件发送、工单创建
数据分析 Agent：调用代码解释器，做统计、绘图、数据清洗
客服 Agent：意图识别、自动回复、流转工单（对应你之前学的 Workflow）

六、Agent 核心优势 & 现存局限

优势

突破模型知识截止时间，通过搜索获取实时信息
弥补模型能力短板（计算、文件、接口、代码）
复杂任务自动拆解，降低人工操作成本
记忆持久化，支持连续多轮复杂交互

局限（生产环境必须注意）

幻觉传导：LLM 决策错误 → 工具调用错误 → 结果错误，层层放大
循环死锁：无限重复调用同一个工具，无法终止
安全风险：工具权限过大时，可能误删文件、调用高危接口
延迟高：多轮思考+工具调用，响应速度远慢于普通对话

生产优化方案

限制最大循环轮次（防止死循环）
工具增加权限校验、入参过滤
每一步结果做事实校验
区分「可信工具」和「高危工具」

七、LangChain 基础 Agent 入门实战

基于前面学的 LangChain 栈，实现一个带计算器、搜索模拟的简易 Agent，直观理解组件与流程。

1. 安装依赖

bash 复制代码

pip install langchain langchain-openai langchain-community

2. 完整代码

python 复制代码

from langchain_openai import ChatOpenAI
from langchain import hub
from langchain.agents import AgentExecutor, create_react_agent
from langchain.tools import CalculatorTool  # 内置计算器工具

# ======================
# 1. 初始化大模型（Agent 大脑）
# ======================
llm = ChatOpenAI(
    model="gpt-3.5-turbo",
    temperature=0,  # 推理类任务设为0，保证严谨
    api_key="你的API_KEY",
    base_url="中转地址"  # 国内使用填写
)

# ======================
# 2. 定义工具（Agent 手脚）
# 这里使用官方内置计算器工具
# ======================
tools = [CalculatorTool()]

# ======================
# 3. 加载 ReAct 标准提示词模板（定义Agent思考规则）
# ======================
prompt = hub.pull("hwchase17/react")

# ======================
# 4. 创建 ReAct Agent
# ======================
agent = create_react_agent(llm, tools, prompt)

# Agent 执行器：管理循环、记忆、终止条件
agent_executor = AgentExecutor(
    agent=agent,
    tools=tools,
    verbose=True,  # 开启日志，查看每一步思考+行动（学习必开）
    max_iterations=5  # 限制最大循环次数，防止死循环
)

# ======================
# 5. 运行测试
# ======================
if __name__ == "__main__":
    # 提问：需要调用计算器工具的复杂计算
    question = "计算 (128 + 256) * 3 等于多少？"
    result = agent_executor.invoke({"input": question})
    print("\n===== 最终回答 =====")
    print(result["output"])

3. 代码说明

temperature=0：Agent 推理、计算场景必须调低，减少随机性。
verbose=True：打印每一步思考、工具调用、返回结果，是学习 Agent 流程的核心。
max_iterations=5：强制限制循环次数，规避死循环。
CalculatorTool：内置工具，模拟「外部能力调用」。

4. 运行日志解读

你会看到三段关键输出，对应 ReAct 流程：

Thought：LLM 思考：需要使用计算器工具
Action ：决定调用 Calculator，并传入计算表达式
Observation：工具返回计算结果
Final Answer：整合结果，输出最终答案

八、Agent 与 RAG、Workflow 的区别

结合你之前学的内容，做对比区分，建立完整知识体系：

1. Workflow（固定工作流）

特点：流程预先写死，分支、步骤、顺序全部固定，没有自主决策。
适用：标准化、固定流程（如你之前做的「自动工单」）。

2. RAG（检索增强生成）

特点：单一链路，检索知识库 → 拼接上下文 → 模型回答。
核心：解决知识幻觉、外部文档问答。
无自主规划、无多工具调用。

3. Agent（智能体）

特点：动态决策、流程不固定，自主选择工具、自主拆分任务、循环执行。
可融合 RAG / Workflow：Agent 可以把「RAG 检索」当作一个工具调用。

进阶组合：Workflow 做固定主干 + Agent 做动态分支 + RAG 做知识库支撑，是企业主流架构。