AI Agent 入门：从 ChatGPT 到自主智能体

ChatGPT 只能对话，AI Agent 能自己思考、调用工具、完成复杂任务。这篇从零讲 Agent 是什么、核心能力有哪些、跟普通大模型对话的区别在哪里，以及 Agent 的典型应用场景。

大家好，我是黒漂技术佬。

2023 年 ChatGPT 火了之后，AI Agent 成了下一个热点。普通大模型你问一句它答一句，而 Agent 能自己设定目标、拆解任务、调用工具、一步步把事情做完。

这个系列 12 篇，从 Agent 的核心概念、架构、工具调用、记忆系统、规划能力，到多 Agent 协作、RAG 结合、框架对比、评估调试、安全可控，最后实战做一个智能客服 Agent。

第一篇先讲基础：Agent 是什么、为什么需要 Agent、核心能力、典型应用。

一、什么是 AI Agent？

一句话定义

AI Agent = 大模型 + 思考能力 + 工具使用 + 记忆系统

普通大模型是「问答式」的，你给输入，它给输出，对话就结束了。

Agent 是「任务式」的，你给一个目标，它自己想办法完成：

思考要做什么
决定调用什么工具
观察结果
继续下一步
直到任务完成

跟 ChatGPT 的区别

	ChatGPT（对话）	AI Agent（智能体）
交互方式	一问一答	自主循环执行
主动性	被动回答	主动规划和执行
工具使用	有限（插件）	核心能力，自由调用
记忆	对话上下文	短期+长期记忆系统
任务复杂度	单轮或简单多轮	复杂多步骤任务
例子	"帮我写封邮件"	"帮我调研竞品并写份报告"

一个直观的例子

普通对话：

你：北京今天天气怎么样？

GPT：我不能实时获取天气，你可以查一下。

Agent：

你：北京今天天气怎么样？

Agent：（思考：需要查天气 → 调用天气工具 → 输入北京 → 获取结果 → 整理回答）

Agent：北京今天晴，25-32℃，空气质量良......

Agent 自己知道要调用工具，不用你告诉它怎么查。

再复杂点：

你：帮我订一张下周三去上海的机票，要最便宜的。

Agent 会自己：查日期 → 查航班 → 比价 → 确认 → 下单（如果授权了）

二、Agent 的核心能力

1. 规划（Planning）

把大目标拆成小步骤，安排执行顺序。

比如目标「写一份竞品分析报告」：

确定要分析哪些竞品
搜索每个竞品的产品信息
收集价格、功能、用户评价
整理对比表格
撰写总结和建议
输出报告

Agent 自己拆解，不用你一步步教。

2. 工具使用（Tool Use）

调用外部工具获取信息或执行操作：

搜索：Google、Bing
计算：计算器、Python 代码执行
数据库：查询业务数据
API：天气、邮件、日历、机票
文件：读写文档、表格
浏览器：网页浏览、截图

大模型本身知识有截止日期、不会计算、不能操作外部系统，工具就是它的「手和眼」。

3. 记忆（Memory）

短期记忆：当前任务的上下文、对话历史
长期记忆：之前的对话、用户偏好、知识库
工作记忆：执行过程中的中间结果

有了记忆，Agent 才能记住你是谁、之前做过什么、持续完成长任务。

4. 反思（Reflection）

执行完之后复盘，看看做得好不好，哪里可以改进。

比如回答错了，自己发现问题，重新搜索再答一遍。

三、Agent 的经典循环：ReAct

ReAct 模式

Reason + Act = 思考 + 行动

循环过程：

复制代码

思考（Thought）→ 行动（Action）→ 观察（Observation）→ 再思考 → ...

直到任务完成，给出最终答案。

一个完整的例子

目标：2024 年奥运会中国拿了多少金牌？

复制代码

Thought: 我需要知道2024年奥运会中国的金牌数。我的训练数据截止到2023年，
         需要用搜索工具查一下。
Action: 搜索「2024巴黎奥运会 中国金牌数」
Observation: 2024巴黎奥运会，中国代表团共获得40枚金牌，排名第二。

Thought: 搜索结果显示是40枚金牌。信息已经找到了，可以回答了。
Answer: 2024年巴黎奥运会，中国代表团获得了40枚金牌，位居金牌榜第二位。

多轮循环的例子

目标：对比小米14和iPhone 15的重量和电池容量

复制代码

Thought: 需要分别查两款手机的参数，然后对比。先查小米14。
Action: 搜索「小米14 重量 电池容量」
Observation: 小米14重量193g，电池容量4610mAh。

Thought: 小米的数据有了，接下来查iPhone 15。
Action: 搜索「iPhone 15 重量 电池容量」
Observation: iPhone 15重量171g，电池容量3349mAh。

Thought: 两款数据都有了，整理成对比表格回答。
Answer: 
| 参数 | 小米14 | iPhone 15 |
|------|--------|-----------|
| 重量 | 193g | 171g |
| 电池 | 4610mAh | 3349mAh |
小米14电池更大，iPhone 15更轻。

每一步都先想清楚要做什么，然后执行，拿到结果再想下一步。

四、Agent 的类型

按能力分

1. 单工具 Agent

只能调用一种工具，比如搜索 Agent、代码 Agent。

2. 多工具 Agent

有多种工具可选，自己判断用哪个。比如既能搜索又能算数学还能发邮件。

3. 规划型 Agent

能拆解复杂任务，多步骤执行。比如 AutoGPT。

4. 多 Agent 系统

多个 Agent 分工协作，比如一个做调研、一个写代码、一个做测试。

按应用场景分

客服 Agent：自动回答用户问题，解决不了转人工
数据分析 Agent：自然语言问数据，自动查数据库画图
代码 Agent：写代码、debug、跑测试
研究 Agent：自动调研、查文献、写报告
办公 Agent：日程管理、邮件处理、会议纪要

五、为什么 Agent 这么重要？

1. 从「工具」到「助手」

普通大模型是工具，你得会用、知道怎么问。Agent 是助手，你说目标，它来办。

2. 释放大模型的潜力

大模型的推理能力很强，但被「只能输出文字」限制了。接上工具之后，能力边界大大扩展。

3. 自动化复杂工作

以前需要人一步步操作的多步骤任务，Agent 可以自动完成。人从操作者变成监督者。

4. 企业落地的关键

纯对话的大模型在企业里场景有限。结合企业内部工具、数据、流程的 Agent，才是真正能提效的。

六、Agent 的技术栈

核心组件

组件	作用	常见方案
大模型	大脑，思考和决策	GPT-4、Claude、Qwen、DeepSeek
工具调用	Function Calling / Tool Use	模型原生支持
记忆系统	存储历史和知识	向量数据库、关系数据库
规划模块	任务拆解	Chain of Thought、Tree of Thoughts
执行框架	调度循环	LangChain、AutoGPT、CrewAI、自研
监控评估	效果衡量	人工评估、自动评测集

主流框架

LangChain：最流行，功能全，生态大
LlamaIndex：侧重 RAG 和数据连接
AutoGPT：自主 Agent 的代表
CrewAI：多 Agent 协作
Dify / FastGPT：低代码 Agent 平台

后面会专门有一篇对比这些框架。

七、Agent 能做什么？典型应用场景

1. 智能客服

用户提问 → Agent 判断问题类型 → 查知识库回答 → 解决不了转人工。

比传统关键词匹配的客服智能很多。

2. 数据分析助手

"上个月销售额最高的5个产品是哪些？画个趋势图。"

Agent 自动生成 SQL、查数据库、画图、给结论。

3. 研发助手

代码审查、bug 定位、自动写测试用例、生成文档。

GitHub Copilot 就是代码 Agent 的雏形。

4. 内容创作

自动搜集资料、写初稿、修改润色、多平台适配。

不是简单生成，是带调研的完整创作流程。

5. 运维助手

排查告警、查日志、执行诊断命令、给出修复建议。

SRE 的智能助手。

6. 个人助理

日程管理、邮件处理、行程规划、信息汇总。

真正的个人 AI 助理。

八、Agent 的局限性

1. 规划能力还不够强

复杂任务容易走偏，步骤多了容易忘前面的目标。长链路任务可靠性不高。

2. 工具调用容易出错

参数传错、选了不该用的工具、调用完不会解读结果。

3. 幻觉问题

大模型本身的幻觉，Agent 也有，甚至因为多步骤会放大。

4. 成本高

多轮调用 + 工具调用，token 消耗比普通对话大很多，贵。

5. 安全风险

能调用工具就有风险：删数据、发错邮件、操作生产环境......需要严格的权限控制。

所以现在 Agent 更多是「辅助」而不是「全自动」，人在回路里监督。

九、本系列内容安排

AI Agent 入门：从 ChatGPT 到自主智能体
Agent 核心架构：思考-行动-观察循环（ReAct）
工具调用：Function Call 与 Tool Use
记忆系统：短期记忆、长期记忆、向量记忆
规划能力：任务分解与多步推理
多 Agent 协作：角色分工与通信
RAG + Agent：知识库增强的智能体
Agent 框架对比：LangChain / AutoGPT / CrewAI
评估与调试：Agent 效果怎么衡量
安全与可控性：输出校验、权限控制
工程化：部署、监控、成本优化
实战：智能客服 Agent 完整实现

十、本篇小结

AI Agent = 大模型 + 规划 + 工具 + 记忆，能自主完成复杂任务
跟普通对话的区别：主动执行、多步骤循环、调用外部工具
核心能力：规划（拆任务）、工具使用（动手）、记忆（记东西）、反思（复盘）
ReAct 模式：思考→行动→观察→再思考，循环直到完成
应用场景：智能客服、数据分析、代码助手、内容创作、运维、个人助理
技术栈：大模型 + Function Call + 向量库 + Agent 框架
局限性：规划不够强、工具易出错、幻觉、成本高、安全风险

下一篇深入讲 Agent 的核心架构：ReAct 循环的具体实现、Prompt 怎么写、执行流程是怎样的。

我是黒漂技术佬。