AI学习——Agent 基础概念

Agent 基础概念

    • [一、什么是 AI Agent(智能体)](#一、什么是 AI Agent(智能体))
      • [1. 通俗定义](#1. 通俗定义)
      • [2. 核心区别](#2. 核心区别)
      • [3. 核心价值](#3. 核心价值)
    • [二、AI Agent 五大核心组件(标准架构)](#二、AI Agent 五大核心组件(标准架构))
      • [1. 大模型 LLM(大脑)](#1. 大模型 LLM(大脑))
      • [2. 记忆 Memory(记忆系统)](#2. 记忆 Memory(记忆系统))
      • [3. 工具 Tools(手脚)](#3. 工具 Tools(手脚))
      • [4. 规划与行动 Planning & Acting(执行逻辑)](#4. 规划与行动 Planning & Acting(执行逻辑))
      • [5. 反思与观察 Reflection & Observation(闭环)](#5. 反思与观察 Reflection & Observation(闭环))
    • [三、Agent 标准工作流程](#三、Agent 标准工作流程)
    • [四、主流 Agent 运行范式(两类经典架构)](#四、主流 Agent 运行范式(两类经典架构))
      • [1. ReAct 范式(最主流、入门首选)](#1. ReAct 范式(最主流、入门首选))
      • [2. Plan-and-Execute 范式(规划-执行)](#2. Plan-and-Execute 范式(规划-执行))
    • [五、Agent 分类(按能力/场景划分)](#五、Agent 分类(按能力/场景划分))
      • [1. 按能力复杂度](#1. 按能力复杂度)
      • [2. 按应用场景](#2. 按应用场景)
    • [六、Agent 核心优势 & 现存局限](#六、Agent 核心优势 & 现存局限)
    • [七、LangChain 基础 Agent 入门实战](#七、LangChain 基础 Agent 入门实战)
      • [1. 安装依赖](#1. 安装依赖)
      • [2. 完整代码](#2. 完整代码)
      • [3. 代码说明](#3. 代码说明)
      • [4. 运行日志解读](#4. 运行日志解读)
    • [八、Agent 与 RAG、Workflow 的区别](#八、Agent 与 RAG、Workflow 的区别)
      • [1. Workflow(固定工作流)](#1. Workflow(固定工作流))
      • [2. RAG(检索增强生成)](#2. RAG(检索增强生成))
      • [3. Agent(智能体)](#3. Agent(智能体))

一、什么是 AI Agent(智能体)

1. 通俗定义

传统大模型:被动应答,你问一句、它答一句,能力局限在自身训练知识,不会主动思考、不会调用外部工具、不会分步解决复杂问题。

AI Agent(智能体) :具备自主规划、思考、决策、工具调用、循环执行、自我纠错 能力的大模型应用。

简单总结:能自己拆解任务、自己选工具、自己一步步完成目标的 AI

2. 核心区别

普通对话大模型 AI Agent
被动接收指令,单次输出 主动思考、分步执行、循环迭代
无法使用外部工具(搜索/计算/查库) 内置工具系统,可灵活调用外部能力
复杂任务容易逻辑断裂 任务拆解、规划、复盘,完成长链路任务
无记忆/行动记录 完整行动轨迹、上下文记忆

3. 核心价值

突破大模型上下文限制、知识截止、能力单一三大短板,落地自动化任务:自动办公、智能客服、数据分析、网络搜索、机器人流程等。


二、AI Agent 五大核心组件(标准架构)

主流 Agent(LangChain、AutoGPT、Dify)均由这 5 部分组成,是理解 Agent 的关键。

1. 大模型 LLM(大脑)

  • 角色:决策中心,负责思考、判断、推理、生成指令。
  • 工作:分析用户目标、判断下一步该做什么、解析工具返回结果、生成最终答案。
  • 选型:通用对话模型即可(GPT、GLM、通义、Qwen 等)。

2. 记忆 Memory(记忆系统)

Agent 的"短期/长期记忆",区分两类:

  1. 短期记忆:对话历史、每一步行动记录,保证上下文连贯,不会忘记前面做了什么。
  2. 长期记忆 :知识库、用户偏好、历史任务记录,一般对接向量数据库(Chroma/FAISS)

常见实现:ConversationBufferMemoryVectorStoreRetrieverMemory

3. 工具 Tools(手脚)

Agent 能力的延伸,LLM 本身做不到的事,交给工具完成

常用工具分类:

  • 信息查询:联网搜索、文档检索(RAG)
  • 能力计算:计算器、代码解释器
  • 操作系统:文件读写、接口调用、工单提交
  • 交互工具:发送消息、调用第三方API

核心逻辑:LLM 只负责决策 ,工具负责执行

4. 规划与行动 Planning & Acting(执行逻辑)

这是 Agent 和普通对话最大的区别:

  1. 规划 :把复杂大目标 拆分成多个可执行小步骤。
    例:目标「整理本周销售数据并统计总额」→ 拆分:读取文件 → 提取数据 → 求和计算 → 生成总结。
  2. 行动:按照规划依次调用工具、执行操作。

5. 反思与观察 Reflection & Observation(闭环)

完整闭环流程:

  1. 执行工具 → 拿到返回结果(观察)
  2. LLM 分析结果:任务是否完成?是否出错?是否需要继续调用工具?
  3. 调整下一步行动(反思)
  4. 循环直到任务结束

经典闭环:思考 → 行动 → 观察 → 再思考


三、Agent 标准工作流程

以「用户让 Agent 查询今天天气」为例,完整流转:

  1. 接收目标:用户提问:查询北京今日天气
  2. 记忆加载:读取历史对话、相关上下文
  3. 思考决策(LLM):自身无实时天气数据,需要调用「搜索工具」
  4. 调用工具:发起网络搜索,传入参数「北京 今日天气」
  5. 获取结果(观察):拿到搜索返回的天气文本
  6. 反思判断(LLM):信息完整,无需继续调用工具
  7. 整合输出:整理结果,回复用户
  8. 记录记忆:保存本次对话与行动日志

如果是复杂任务(多步骤),会重复 思考→调用工具→观察 循环。


四、主流 Agent 运行范式(两类经典架构)

1. ReAct 范式(最主流、入门首选)

Reason + Act(推理 + 行动)

  • 核心理念:把「思考过程」和「工具调用动作」显式写出来,LLM 交替输出思考内容执行动作
  • 特点:结构简单、易调试、工业界使用最多,LangChain 默认 Agent 就是 ReAct。
  • 适用:绝大多数常规任务、工具调用场景。

2. Plan-and-Execute 范式(规划-执行)

先整体规划,再分步执行

  1. 第一步:LLM 先把整个任务拆成完整步骤清单
  2. 第二步:Agent 按清单依次执行每一步
  3. 执行中可动态修正计划
  • 特点:擅长长链路、复杂多步骤任务(如数据分析、项目流程、自动化办公)。
  • 缺点:简单任务会冗余,适合复杂场景。

入门优先学习 ReAct Agent


五、Agent 分类(按能力/场景划分)

1. 按能力复杂度

  • 基础工具型 Agent:仅调用单个/少量工具,单循环执行(入门级别),例:带搜索、计算器的问答助手。
  • 复杂多步骤 Agent:多工具组合、多轮循环、动态改计划,例:自动数据分析、自动化运维。
  • 自主 Agent(高阶):无人工干预,长期自主运行,代表:AutoGPT、GPT4o 自主模式。

2. 按应用场景

  • 问答检索 Agent:结合 RAG + 搜索,智能查资料、解答问题
  • 办公自动化 Agent:读写文件、表格处理、邮件发送、工单创建
  • 数据分析 Agent:调用代码解释器,做统计、绘图、数据清洗
  • 客服 Agent:意图识别、自动回复、流转工单(对应你之前学的 Workflow)

六、Agent 核心优势 & 现存局限

优势

  1. 突破模型知识截止时间,通过搜索获取实时信息
  2. 弥补模型能力短板(计算、文件、接口、代码)
  3. 复杂任务自动拆解,降低人工操作成本
  4. 记忆持久化,支持连续多轮复杂交互

局限(生产环境必须注意)

  1. 幻觉传导:LLM 决策错误 → 工具调用错误 → 结果错误,层层放大
  2. 循环死锁:无限重复调用同一个工具,无法终止
  3. 安全风险:工具权限过大时,可能误删文件、调用高危接口
  4. 延迟高:多轮思考+工具调用,响应速度远慢于普通对话

生产优化方案

  • 限制最大循环轮次(防止死循环)
  • 工具增加权限校验、入参过滤
  • 每一步结果做事实校验
  • 区分「可信工具」和「高危工具」

七、LangChain 基础 Agent 入门实战

基于前面学的 LangChain 栈,实现一个带计算器、搜索模拟的简易 Agent,直观理解组件与流程。

1. 安装依赖

bash 复制代码
pip install langchain langchain-openai langchain-community

2. 完整代码

python 复制代码
from langchain_openai import ChatOpenAI
from langchain import hub
from langchain.agents import AgentExecutor, create_react_agent
from langchain.tools import CalculatorTool  # 内置计算器工具

# ======================
# 1. 初始化大模型(Agent 大脑)
# ======================
llm = ChatOpenAI(
    model="gpt-3.5-turbo",
    temperature=0,  # 推理类任务设为0,保证严谨
    api_key="你的API_KEY",
    base_url="中转地址"  # 国内使用填写
)

# ======================
# 2. 定义工具(Agent 手脚)
# 这里使用官方内置计算器工具
# ======================
tools = [CalculatorTool()]

# ======================
# 3. 加载 ReAct 标准提示词模板(定义Agent思考规则)
# ======================
prompt = hub.pull("hwchase17/react")

# ======================
# 4. 创建 ReAct Agent
# ======================
agent = create_react_agent(llm, tools, prompt)

# Agent 执行器:管理循环、记忆、终止条件
agent_executor = AgentExecutor(
    agent=agent,
    tools=tools,
    verbose=True,  # 开启日志,查看每一步思考+行动(学习必开)
    max_iterations=5  # 限制最大循环次数,防止死循环
)

# ======================
# 5. 运行测试
# ======================
if __name__ == "__main__":
    # 提问:需要调用计算器工具的复杂计算
    question = "计算 (128 + 256) * 3 等于多少?"
    result = agent_executor.invoke({"input": question})
    print("\n===== 最终回答 =====")
    print(result["output"])

3. 代码说明

  1. temperature=0:Agent 推理、计算场景必须调低,减少随机性。
  2. verbose=True:打印每一步思考、工具调用、返回结果,是学习 Agent 流程的核心。
  3. max_iterations=5:强制限制循环次数,规避死循环。
  4. CalculatorTool:内置工具,模拟「外部能力调用」。

4. 运行日志解读

你会看到三段关键输出,对应 ReAct 流程:

  1. Thought:LLM 思考:需要使用计算器工具
  2. Action :决定调用 Calculator,并传入计算表达式
  3. Observation:工具返回计算结果
  4. Final Answer:整合结果,输出最终答案

八、Agent 与 RAG、Workflow 的区别

结合你之前学的内容,做对比区分,建立完整知识体系:

1. Workflow(固定工作流)

  • 特点:流程预先写死,分支、步骤、顺序全部固定,没有自主决策。
  • 适用:标准化、固定流程(如你之前做的「自动工单」)。

2. RAG(检索增强生成)

  • 特点:单一链路,检索知识库 → 拼接上下文 → 模型回答。
  • 核心:解决知识幻觉、外部文档问答。
  • 无自主规划、无多工具调用。

3. Agent(智能体)

  • 特点:动态决策、流程不固定,自主选择工具、自主拆分任务、循环执行。
  • 可融合 RAG / Workflow:Agent 可以把「RAG 检索」当作一个工具调用。

进阶组合:Workflow 做固定主干 + Agent 做动态分支 + RAG 做知识库支撑,是企业主流架构。


相关推荐
NQBJT3 分钟前
青鸾云步:基于 Cordova 的 AI 导盲机器人 APP 全栈开发实战
人工智能·app·导盲·轮足机器人·青鸾云步
七牛开发者31 分钟前
Is Grep All You Need?Agent 搜索里,Harness 比检索方法更重要
ai
深兰科技32 分钟前
韩国KAIST AI半导体高管项目代表团到访深兰科技,聚焦AI算力与智能产业合作机会
人工智能·机器人·symfony·ai算力·深兰科技·韩国科学技术院·kaist
快乐on9仔39 分钟前
NLP学习(一)transformers之pipeline体验
人工智能·深度学习
冬奇Lab1 小时前
Agent系列(六):记忆管理——让 Agent 记住重要的事
人工智能·agent
冬奇Lab1 小时前
一天一个开源项目(第113篇):notebooklm-py - 把 Google NotebookLM 变成可编程 API,还能接入 Claude Code
人工智能·google·开源
AlfredZhao1 小时前
入门:我的第一个Vibe Coding实践程序
ai·codex·vibecoding
愚者Pro2 小时前
Flutter Widget组件学习(专为 Uniapp 转 Flutter 定制)
vue.js·学习·flutter·uni-app
字节跳动开源2 小时前
Viking AI 搜索 CLI 正式发布:会说话,就能做搜索推荐
数据库·人工智能·开源