AI - AI Agent 是什么?为什么最近这么火?
- [1. AI Agent 是什么?](#1. AI Agent 是什么?)
- [2. 用一个最简单的例子,从 ChatGPT → Agent 的区别](#2. 用一个最简单的例子,从 ChatGPT → Agent 的区别)
- [3. 为什么 AI Agent 会突然爆火?](#3. 为什么 AI Agent 会突然爆火?)
-
- [① 模型工具调用能力成熟](#① 模型工具调用能力成熟)
- [② 企业需要自动化,不需要"聊天机器人"](#② 企业需要自动化,不需要“聊天机器人”)
- [③ Agent 架构开始标准化](#③ Agent 架构开始标准化)
- [④ 大模型自身已足够聪明](#④ 大模型自身已足够聪明)
- [4. AI Agent 由什么组成?](#4. AI Agent 由什么组成?)
-
- [① 大脑 Large Language Model (LLM)](#① 大脑 Large Language Model (LLM))
- [② 记忆(Memory)](#② 记忆(Memory))
- [③ 工具(Tools / Functions / APIs)](#③ 工具(Tools / Functions / APIs))
- [④ 执行器(Executor)](#④ 执行器(Executor))
- [5. AI Agent 的工作流程:像人一样工作](#5. AI Agent 的工作流程:像人一样工作)
- [6. AI Agent 能做什么?(生活 & 工作场景举例)](#6. AI Agent 能做什么?(生活 & 工作场景举例))
- [7. 三类主流 Agent 设计模式](#7. 三类主流 Agent 设计模式)
-
- [① ReAct Agent(最经典)](#① ReAct Agent(最经典))
- [② Plan-and-Execute(规划者 + 执行者)](#② Plan-and-Execute(规划者 + 执行者))
- [③ State Machine Agent(状态机,最可靠)](#③ State Machine Agent(状态机,最可靠))
- [8. 总结:AI Agent = 下一代的 AI 使用方式](#8. 总结:AI Agent = 下一代的 AI 使用方式)
过去,我们使用 ChatGPT 这种大模型,通常是"一问一答"。但现在,你会越来越常听到一个词:AI Agent(AI 智能体)。它不是一个新模型,而是一种 让 AI 能够真正做事 的方式。很多人第一次听到 Agent 都会想:"是不是特别复杂?是不是跟机器人一样?" 其实不用怕,AI Agent 的理念非常简单,我用生活中的例子带你理解。
1. AI Agent 是什么?
如果一句话总结:
AI Agent 是能理解目标、能规划步骤、能调用工具并执行任务的自主智能系统。
它的核心能力包括:
- 明白你要做什么(理解目标)
- 想出一个行动方案(任务规划)
- 调用外部能力来完成任务(使用工具)
- 对执行结果做出反馈(自我反思)
- 如果失败还能继续尝试,直到达成目标(循环执行)
简单说,就是从"回答问题"升级为"帮你做事"。
2. 用一个最简单的例子,从 ChatGPT → Agent 的区别
传统 ChatGPT:回答问题
你问:"帮我找三台 5000 元以内的笔记本并做个对比。"
ChatGPT:
- 给你写几段文字
- 列几个型号
- 可能还不太准确
- 也不会真的帮你「查价」「筛选」「找优惠」「输出表格」
因为它只能"说",不能"做"。
AI Agent:
你说同样的话,Agent 会自动:
- 理解你的目标:找笔记本 → 预算 → 对比
- 自动规划任务:
- 打开电商网站
- 搜索笔记本
- 按配置/重量筛选
- 抓取参数
- 排序
- 输出表格
- 给出购买建议
- 调用工具执行
- 用浏览器工具去爬网页
- 用 API 获取数据
- 用 python 工具清洗数据
- 用 Excel 工具生成表格
- 自动反思与修正
- 如果某个 API 失效,它会换路线
- 如果数据不齐全,它会再抓取
- 如果预算找不到结果,它询问你是否放宽条件
- 最终给你一个 真正整理好的表格 + 链接
这就是差别:
ChatGPT 是一个特别聪明的顾问,能"说"
Agent 是一个特别聪明的助理,能"做"
3. 为什么 AI Agent 会突然爆火?
① 模型工具调用能力成熟
GPT-4o 之后,模型能稳定使用工具(Tool Use),大厂都开始支持"函数调用""API 调用"。
这让 AI 能真正与系统互动。
② 企业需要自动化,不需要"聊天机器人"
企业不是为了跟 ChatGPT 聊天,而是希望:
- 自动处理邮件
- 自动分析日志
- 自动生成报表
- 自动监控服务
- 自动归档文档
- 自动执行运维任务
Agent 天然适合这些场景。
③ Agent 架构开始标准化
例如:
- OpenAI:Model Context Protocol (MCP)
- 微软:AutoGen
- LangChain:LangGraph
- AWS:Agents for Bedrock
- Google:Vertex AI Agent Builder
以前大家不知道怎么设计 Agent,现在路线都清晰了。
④ 大模型自身已足够聪明
如果模型不够强,Agent 就会卡死。
但如今的模型具备:
- 逻辑规划能力
- 工具使用能力
- 自我纠错能力
- 多轮任务保持能力
这些让 Agent 变得真正可用。
4. AI Agent 由什么组成?
我们把复杂的 Agent 架构拆成五个模块。你可以把它想象成一个小型"AI 团队"。
如果用一句更生活化的话:
Agent = 一个有脑子、有工具、能记事、能行动的小助手。
① 大脑 Large Language Model (LLM)
负责:
- 思考规划
- 决策
- 调用工具
- 分析结果
模型越好,Agent 越聪明。
② 记忆(Memory)
包括:
- 短期记忆:如当前任务的上下文
- 长期记忆:如用户偏好、历史事件
- 工作记忆:任务链路状态(例如 LangGraph 的 State Machine)
为什么重要?
如果 Agent 每次都问:"你喜欢哪种风格的酒店?"
那就废了。
③ 工具(Tools / Functions / APIs)
工具是 Agent 的"手和脚",包括:
- 访问数据库
- HTTP 请求
- Python 执行器
- 文件系统
- 邮件发送、Slack 推送
- 云服务(AWS/GCP)
- 浏览器自动化(Playwright)
工具越丰富,Agent 能做的事情越多。
④ 执行器(Executor)
所有工具调用都要有个执行机制:
- ReAct
- Plan-and-Execute
- CoT with Tools
- LangGraph 的 "workflow runner"
它确保 Agent 不会:
- 死循环
- 调错工具
- 无限反思
- 执行危险操作
⑤ 环境(Environment)
Agent 与之互动的世界:
- 文件系统
- 网页
- API
- 本地应用
- 企业内部系统
- IoT 设备(灯光、空调)
你也可以把它理解为"Agent 可以输出能力的地方"。
5. AI Agent 的工作流程:像人一样工作
下面是最经典的 Agent 工作循环,几乎所有框架都遵循这条主线:

是不是很像人在做事?
Agent = 会自己循环执行直到达成目标的 AI。
这与传统 LLM 最大差别就在于 "循环执行 + 行动"。
6. AI Agent 能做什么?(生活 & 工作场景举例)
🔹 生活场景
- 自动规划旅行(查航班、订酒店、做行程)
- 帮你监控机票价格并自动通知
- 自动整理文件、照片
- 帮你查找要买的设备并做分析
🔹 工作场景
- 自动读取 PR / Issue、生成分析
- 监控服务日志自动报警
- 用 API 操作云资源(例如自动扩容)
- 每天生成日报、周报
- 自动跑测试、自动部署
未来你可能会有多个 "AI 小助手",每个负责不同任务,比如 DevOps Agent、理财 Agent、旅行 Agent 等。
7. 三类主流 Agent 设计模式
深入一点,现在最常用的 Agent 架构模式主要有三种。
① ReAct Agent(最经典)
ReAct = Reason(思考) + Act(行动)
每一步:
- 模型先思考
- 提出它要做什么
- 调用工具
- 看结果
- 再继续下一步
优点:简单、直观
缺点:容易陷入死循环,不太适合复杂任务
② Plan-and-Execute(规划者 + 执行者)
分两个模型/两个阶段:
- Planner:负责生成全局计划
- Executor:按计划一步步执行
优点:适合长任务
缺点: Planner 容易出错
③ State Machine Agent(状态机,最可靠)
代表:LangGraph、OpenAI MCP Agent
它把 Agent 视为一个 可控流程图:
- 每个节点执行一个步骤
- 有明确输入输出
- 有清晰条件跳转
- 不会死循环
这是一种非常工业级、非常稳定、非常适合企业的方式。
越复杂的场景越适合状态机 Agent,因为它可控。
8. 总结:AI Agent = 下一代的 AI 使用方式
过去我们是把 AI 当"搜索引擎"。
未来我们会把 AI 当"员工"。
Agent 的出现标志着一个新阶段:
AI 不再是聊天对象,而是自动化执行任务的智能体。
它让 AI 从"语言模型"变成"行动系统",真正进入生产力领域。