12 节课解锁 AI Agents，让AI替你打工（一）: 简介

本文较长，建议点赞收藏。更多AI大模型应用开发学习视频及资料，在智泊AI。
本系列教程主要是为了探索 AI Agent 的设计原理与真实世界应用

随着大语言模型（LLMs）的出现，人工智能取得了巨大飞跃。这些强大的系统彻底改变了自然语言处理，但当它们与智能体（即自主推理、规划和行动的能力）相结合时，其真正潜力才得以释放。这就是大语言模型智能体发挥作用的地方，它代表了我们与人工智能交互和利用方式的范式转变。

图片来源：letta

本文旨在全面概述 AI Agent，深入探讨其特征、组件和类型，同时探索其演进历程、挑战和未来发展方向。

让我们首先理解从 LLM 到 AI Agent 的演进过程。

1.从 LLM 到 AI Agent

LLM应用形态的演进是现代应用发展最快的领域之一。

图片来源：mongodb

1.1 传统聊天机器人到 LLM 驱动聊天机器人

聊天机器人并非新生事物，在生成式 AI（gen AI）概念出现前，你可能就与网站上的传统聊天机器人互动过。前 gen AI 时代的传统聊天机器人与当今 AI 驱动的对话 Agent 有本质区别：

基于启发式的响应：

传统聊天机器人运行在规则逻辑（"if-then"语句）上
局限于预定义规则，无法处理复杂或模糊查询

固定回复模板：

响应是静态且预定义的
通过检测特定关键词或短语触发
缺乏灵活性和对话深度

人工转接机制：

始终包含"联系人工客服"按钮处理未解决问题
复杂问题仍需人工干预

图片来源：mongodb

1.2 LLM 驱动聊天机器人的引入

ChatGPT 的发布： 2022年11月30日，OpenAI 推出基于 GPT-3.5 的ChatGPT，作为首个主流 LLM 应用。ChatGPT 保留了熟悉的聊天界面，但背后是经过海量互联网语料训练的高级LLM技术。

Transformer 架构： GPT（生成式预训练 Transformer ）基于 Google 2017年提出的 Transformer 架构，使用自注意力机制分析输入序列，实现更深层次的上下文理解。

LLM 的能力： 与传统聊天机器人不同，LLM 能生成类人的、上下文相关的新文本。应用场景包括代码生成、内容创作、增强客服等。

局限性：

个性化：难以在长对话中保持一致的个性化互动
幻觉：可能生成事实错误但逻辑通顺的响应，基于概率而非验证知识输出

应对措施：

探索检索增强生成(RAG) 等技术将输出锚定在可靠外部数据
这些进步旨在减少错误并提升 LLM 系统的鲁棒性

1.3 从 LLM 聊天机器人到 RAG 聊天机器人和AI Agent

RAG 聊天机器人： 检索增强生成（RAG）将外部数据检索与 LLM 能力结合，生成准确且上下文接地的响应。

知识来源：

非参数知识：从互联网或专有数据库获取的实时数据
参数知识：LLM 训练中内嵌的知识

优势： 减少幻觉、提供最新信息、确保可验证响应

提示工程： 上下文学习（单样本、少样本）、思维链（CoT）、ReAct 等技术通过引导 LLM 的推理和输出生成提升响应质量

图片来源：mongodb

AI Agents： 从配备工具、多步规划和推理能力的 LLM 演进而来

工具使用： LLM 可通过分析任务并通过结构化模式（如 JSON）分配参数，调用程序化定义的函数或API

环境： AI Agents 在迭代执行环境中运行，支持基于反馈的动态决策和持续适应

Agent 式系统：由自主 Agent 组成的计算架构，能够集成多个系统组件、做出决策并实现目标

Agent 式 RAG：

将 LLM 的推理、工具使用和规划能力与语义信息检索结合
支持分解任务、执行复杂查询和利用工具解决问题的动态系统

图片来源：mongodb

从 LLM 聊天机器人到 RAG 聊天机器人和 AI Agent的转变，标志着向更智能、自适应和工具集成的系统演进，能够实时解决复杂问题。

2. 什么是 AI Agent？

AI Agent 是通过传感器感知环境、处理信息，并通过执行器作用于环境以实现特定目标的系统。可以将其视为能够观察、思考和行动的数字化实体（类似人类与环境的互动方式，但以编程和有目的的方式实现）。

AI Agent 的概念建立在理性行为的基本理念上： Agent 应采取能最大化实现既定目标可能性的行动。这种理性将 AI Agent 与简单响应程序区分开来。

图片来源：Abhishek Reddy

2.1 AI Agent 的特征

AI Agent具备以下关键特征：

自主性：无需人工干预独立决策
反应与主动行为：响应环境变化并采取主动措施实现目标
适应性：通过处理新信息和经验学习进化
目标导向：致力于实现预定义目标或优化结果
交互性：与其他 Agent 或人类沟通协作
持续性：持续运行，监控和响应动态环境
AI Agent 的核心组件

AI Agent 的核心由以下组件构成：

1. 感知(Preception)

2. 推理(Reasoning)

3. 行动(Action)

4. 知识库(Knowledge Base)

5. 学习(Learning)

6. 通信接口(Communication Interface)

3.1 感知（传感器）

使 Agent 能感知环境。可以是物理传感器（摄像头、麦克风）或数字输入（数据流、用户交互）。

3.2 推理（处理器）

Agent 的"大脑"，处理传感器信息并确定适当行动。该组件实现 Agent的决策算法并维护必要内部状态。

AI Agent 使用各种决策机制，如基于规则的系统、专家系统和神经网络，以做出明智选择并有效执行任务。

3.3 行动（执行器）

Agent 影响环境的手段。可以是物理的（机械臂、扬声器）或数字的（数据库更新、显示输出）。

3.4 知识库

Agent 用于决策的信息存储库，包括预编程知识和学习获得的信息。

3.5 学习

使 Agent 能通过数据和经验学习随时间提升性能。使用强化学习、监督学习和无监督学习等技术持续改进 AI Agent 表现。

3.6 通信接口

允许 Agent 与其他 Agent、系统或人类交互。

Agent in Large Environment | 图片来源：Tim Cvetko

下文将详细说明 Agent 工作原理时逐一解析各组件。

4. AI Agent 如何与环境交互

交互周期通常称为"感知-规划-行动"循环或"感知-行动"循环。以自动驾驶汽车为例解析各阶段：

4.1 感知阶段

可视作 Agent 的"传感"阶段：

传感器 → 处理 → 状态更新

Agent 通过传感器接收输入
信息被处理和解释
根据新信息更新当前状态

4.2 决策阶段

Agent的"思考"阶段：

当前状态 + 目标 → 评估选项 → 选择最佳行动

评估可能行动
考虑目标和约束
根据可用信息选择最优行动

4.3 行动阶段

Agent 的"执行"阶段：

执行行动 → 观察变化 → 开始新循环

通过执行器执行选定行动
环境因此发生变化
Agent 通过传感器观察结果，开始新循环

该循环持续重复，通常每秒多次。其强大之处在于：

1. 适应性： 若发生意外， Agent 能在下次感知阶段检测并调整行动

2. 学习机会： Agent 可比较预测结果与实际结果以改进未来决策

3. 目标导向行为： 每个循环都推动 Agent 向目标迈进，同时遵守约束(螺旋式上升)

通过恒温器类比，编程层面比较三个复杂度级别：

简单程序

yaml 复制代码

1# 简单程序

2if temperature > desired_temperature:

3    turn_on_cooling()

仅遵循固定规则
不考虑后果
无学习或适应

2. 响应式程序

ini 复制代码

1# 响应式程序

2if temperature > desired_temperature:

3    if time_of_day == "peak_hours":

4        turn_on_cooling_eco_mode()

5    else:

6        turn_on_cooling_normal()

更复杂规则
一定上下文感知
仍无真正智能

3. AI Agent

ini 复制代码

1class SmartThermostat:

2    def perceive(self):

3        current_temp = get_temperature()

4        time = get_time()

5        electricity_price = get_current_price()

6        weather_forecast = get_forecast()

7        user_preferences = get_preferences()

8        return Environment(current_temp, time, electricity_price,

9                         weather_forecast, user_preferences)

10

11    def think(self, environment):

12        possible_actions = [

13            NoAction(),

14            CoolNormal(),

15            CoolEco(),

16            PreCool(),

17            WaitForOffPeak()

18        ]

19

20        # 评估每个行动的预期结果

21        best_action = None

22        best_utility = float('-inf')

23

24        for action in possible_actions:

25            predicted_state = predict_future_state(environment, action)

26            utility = calculate_utility(predicted_state)

27

28            if utility > best_utility:

29                best_action = action

30                best_utility = utility

31

32        return best_action

33

34    def act(self, action):

35        action.execute()

36        monitor_results()

37        update_learning_model()

考虑多因素
预测结果
从经验中学习
优化长期目标
平衡竞争目标

该循环适用于所有 AI Agent：

聊天机器人感知文本输入，决定响应并生成文本
交易机器人感知市场数据，决定交易策略并下单
扫地机器人感知房间布局和灰尘，决定清洁路径并启动清洁机制

5. AI Agent 如何运作？

假设你的智能冰箱不仅能在牛奶喝完时自动补货，还能根据你的浏览记录建议改用杏仁奶。这究竟是贴心服务还是令人不安？由你判断！

这正是 AI Agent 的典型应用。

AI Agent 能理解人类语言（借助 LLM）、推理信息、规划行动并自主执行任务。它们解决复杂问题，远超越简单自动化工具。与基础脚本不同，AI Agent 集成到软件系统中，实现与环境的复杂交互。

AI Agent 与简单自动化的区别？

区别源于两大核心能力：

工具使用
规划能力

你已见过 ChatGPT 在基础数学题上出错，因为它仅基于训练数据响应。同理，若要求你计算85乘65，作为人类，你可以直接作答（若已知答案）或使用计算器工具，对吗？

AI Agent 同理，赋予其工具访问权限。

第二要素是规划。

同一数学计算，只有知晓乘法或知道向计算器传递参数（85、65及乘法运算）才能解题。这正是规划与推理的作用。

以下是查询 AI Agent 时的流程：

5.1 编排层（控制中心）

假设创建会议安排 AI Agent，查询："我想为所有学生举办网络研讨会"。

该查询将触发 AI Agent。

编排层 | 图片来源：Himanshu Ramchandani

查询可以是文本、音频、视频或图像。（已知无论数据类型如何，最终都会转换为机器可处理的数值）

查询由编排层（即 Agent 控制中心）处理。

编排层四大功能：

记忆：维护整个交互过程的记忆
状态：存储当前进程状态
推理：指导 Agent 的推理过程
规划：确定步骤及下一步行动

图片来源：lyzr

编排层将与模型（LLM）交互。

5.2 模型（大脑）

模型是整个 Agent 的中央决策者，通常是大型语言模型等AI模型。

AI Agent中的模型 | 图片来源：Himanshu Ramchandani

为理解查询、制定计划和确定下一步行动，模型使用推理和逻辑框架如：

ReAct(Reasion+Act): （推理+行动）确保审慎行动
思维链: 通过中间步骤推理
思维树: 探索多路径寻找最优解

模型决定采取的行动，并通过特定工具执行。

5.3 工具（双手）

通过工具， Agent 能与外部世界交互，如计算器、API、网络搜索、外部数据库等。

图片来源：Himanshu Ramchandani

工具使 Agent 能执行超越模型能力的行动、获取实时信息或完成现实任务。

6. ✅ 何时使用 Agent / ⛔ 何时避免使用

当需要 LLM 决定应用工作流时， Agent 很有用。但通常存在过度使用。核心问题是：是否真需要工作流灵活性来高效解决当前任务？若预定义工作流频繁失效，则需更高灵活性。以冲浪旅行网站客服应用为例：

已知请求属于两个预定义类别（基于用户选择），且每个类别有预定义工作流：

需要旅行知识 ⇒ 提供知识库搜索栏
联系销售 ⇒ 填写联系表单

若确定性工作流适配所有查询，直接编码即可！这将提供 100% 可靠系统，避免不可预测 LLM 介入导致错误。为简化和稳健性，建议规范化避免使用 Agent 行为。

但若工作流无法预先确定？

例如用户查询："我周一能来，但忘带护照可能延迟到周三，能否周二早上接我和装备冲浪，并提供取消保险？"该问题涉及多因素，上述预定义标准均不适用。

若预定义工作流频繁失效，则需更高灵活性。这正是 Agent 式设置的用武之地。

此例中，可构建多步 Agent，配备天气 API 获取预报、Google Maps API 计算行程、员工可用性看板和知识库 RAG 系统。

传统计算机程序受限于预定义工作流，通过堆叠 if/else 开关处理复杂性，专注于极窄任务（如"计算数字总和"或"寻找图最短路径"）。但现实任务（如上述旅行案例）往往不适用预定义工作流。 Agent 式系统为程序开启了现实任务处理的广阔天地！

7. 应用领域

AI Agent 是多功能工具，提升各领域生产力、效率和智能化水平，正日益应用于日常应用和高影响领域。

图片来源：lyzr

8. 结论

AI Agent 正改变技术交互方式，提供前所未有的自主性、智能和适应性。从简单反射 Agent 到复杂学习系统，它们正被跨行业应用以解决复杂问题和增强人类能力。但构建有效 AI Agent 面临伦理关切、数据依赖和可扩展性等挑战。

随着 AI 技术持续演进，AI Agent 未来潜力巨大。通过关注通用 AI、人机协作和伦理考量，我们可创建不仅高效执行任务，且符合人类价值观并为社会积极贡献的 Agent。

AI Agent 是能感知、决策和行动以实现目标的自主系统
核心组件包括传感器、执行器、决策引擎和学习模块
应用于虚拟助手、自动驾驶和医疗等领域

通过理解基础原理并关注进展，我们能利用 AI Agent 推动创新，创造更美好未来。

学习资源推荐

如果你想更深入地学习大模型，以下是一些非常有价值的学习资源，这些资源将帮助你从不同角度学习大模型，提升你的实践能力。

本文较长，建议点赞收藏。更多AI大模型应用开发学习视频及资料，在智泊AI。