12 节课解锁 AI Agents,让AI替你打工(一): 简介

本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在智泊AI
本系列教程主要是为了探索 AI Agent 的设计原理与真实世界应用

随着大语言模型(LLMs)的出现,人工智能取得了巨大飞跃。这些强大的系统彻底改变了自然语言处理,但当它们与智能体(即自主推理、规划和行动的能力)相结合时,其真正潜力才得以释放。这就是大语言模型智能体发挥作用的地方,它代表了我们与人工智能交互和利用方式的范式转变。

图片来源:letta

本文旨在全面概述 AI Agent,深入探讨其特征、组件和类型,同时探索其演进历程、挑战和未来发展方向。

让我们首先理解从 LLM 到 AI Agent 的演进过程。

1.从 LLM 到 AI Agent


LLM应用形态的演进是现代应用发展最快的领域之一。

图片来源:mongodb

1.1 传统聊天机器人到 LLM 驱动聊天机器人

聊天机器人并非新生事物,在生成式 AI(gen AI)概念出现前,你可能就与网站上的传统聊天机器人互动过。前 gen AI 时代的传统聊天机器人与当今 AI 驱动的对话 Agent 有本质区别:

基于启发式的响应:

  • 传统聊天机器人运行在规则逻辑("if-then"语句)上
  • 局限于预定义规则,无法处理复杂或模糊查询

固定回复模板:

  • 响应是静态且预定义的
  • 通过检测特定关键词或短语触发
  • 缺乏灵活性和对话深度

人工转接机制:

  • 始终包含"联系人工客服"按钮处理未解决问题
  • 复杂问题仍需人工干预

图片来源:mongodb

1.2 LLM 驱动聊天机器人的引入

ChatGPT 的发布: 2022年11月30日,OpenAI 推出基于 GPT-3.5 的ChatGPT,作为首个主流 LLM 应用。ChatGPT 保留了熟悉的聊天界面,但背后是经过海量互联网语料训练的高级LLM技术。

Transformer 架构: GPT(生成式预训练 Transformer )基于 Google 2017年提出的 Transformer 架构,使用自注意力机制分析输入序列,实现更深层次的上下文理解。

LLM 的能力: 与传统聊天机器人不同,LLM 能生成类人的、上下文相关的新文本。应用场景包括代码生成、内容创作、增强客服等。

局限性:

  • 个性化:难以在长对话中保持一致的个性化互动
  • 幻觉:可能生成事实错误但逻辑通顺的响应,基于概率而非验证知识输出

应对措施:

  • 探索检索增强生成(RAG) 等技术将输出锚定在可靠外部数据
  • 这些进步旨在减少错误并提升 LLM 系统的鲁棒性

1.3 从 LLM 聊天机器人到 RAG 聊天机器人和AI Agent

RAG 聊天机器人: 检索增强生成(RAG)将外部数据检索与 LLM 能力结合,生成准确且上下文接地的响应。

知识来源:

  • 非参数知识:从互联网或专有数据库获取的实时数据
  • 参数知识:LLM 训练中内嵌的知识

优势: 减少幻觉、提供最新信息、确保可验证响应

提示工程: 上下文学习(单样本、少样本)、思维链(CoT)、ReAct 等技术通过引导 LLM 的推理和输出生成提升响应质量

图片来源:mongodb

AI Agents: 从配备工具、多步规划和推理能力的 LLM 演进而来

工具使用: LLM 可通过分析任务并通过结构化模式(如 JSON)分配参数,调用程序化定义的函数或API

环境: AI Agents 在迭代执行环境中运行,支持基于反馈的动态决策和持续适应

Agent 式系统:由自主 Agent 组成的计算架构,能够集成多个系统组件、做出决策并实现目标

Agent 式 RAG:

  • 将 LLM 的推理、工具使用和规划能力与语义信息检索结合
  • 支持分解任务、执行复杂查询和利用工具解决问题的动态系统

图片来源:mongodb

从 LLM 聊天机器人到 RAG 聊天机器人和 AI Agent的转变,标志着向更智能、自适应和工具集成的系统演进,能够实时解决复杂问题。

2. 什么是 AI Agent?


AI Agent 是通过传感器感知环境、处理信息,并通过执行器作用于环境以实现特定目标的系统。可以将其视为能够观察、思考和行动的数字化实体(类似人类与环境的互动方式,但以编程和有目的的方式实现)。

AI Agent 的概念建立在理性行为的基本理念上: Agent 应采取能最大化实现既定目标可能性的行动。这种理性将 AI Agent 与简单响应程序区分开来。

图片来源:Abhishek Reddy

2.1 AI Agent 的特征

AI Agent具备以下关键特征:

  1. 自主性:无需人工干预独立决策
  2. 反应与主动行为:响应环境变化并采取主动措施实现目标
  3. 适应性:通过处理新信息和经验学习进化
  4. 目标导向:致力于实现预定义目标或优化结果
  5. 交互性:与其他 Agent 或人类沟通协作
  6. 持续性:持续运行,监控和响应动态环境
  7. AI Agent 的核心组件

AI Agent 的核心由以下组件构成:

1. 感知(Preception)

2. 推理(Reasoning)

3. 行动(Action)

4. 知识库(Knowledge Base)

5. 学习(Learning)

6. 通信接口(Communication Interface)

3.1 感知(传感器)

使 Agent 能感知环境。可以是物理传感器(摄像头、麦克风)或数字输入(数据流、用户交互)。

3.2 推理(处理器)

Agent 的"大脑",处理传感器信息并确定适当行动。该组件实现 Agent的决策算法并维护必要内部状态。

AI Agent 使用各种决策机制,如基于规则的系统、专家系统和神经网络,以做出明智选择并有效执行任务。

3.3 行动(执行器)

Agent 影响环境的手段。可以是物理的(机械臂、扬声器)或数字的(数据库更新、显示输出)。

3.4 知识库

Agent 用于决策的信息存储库,包括预编程知识和学习获得的信息。

3.5 学习

使 Agent 能通过数据和经验学习随时间提升性能。使用强化学习、监督学习和无监督学习等技术持续改进 AI Agent 表现。

3.6 通信接口

允许 Agent 与其他 Agent、系统或人类交互。

Agent in Large Environment | 图片来源:Tim Cvetko

下文将详细说明 Agent 工作原理时逐一解析各组件。

4. AI Agent 如何与环境交互


交互周期通常称为"感知-规划-行动"循环或"感知-行动"循环。以自动驾驶汽车为例解析各阶段:

4.1 感知阶段

可视作 Agent 的"传感"阶段:

传感器 → 处理 → 状态更新

  • Agent 通过传感器接收输入
  • 信息被处理和解释
  • 根据新信息更新当前状态

4.2 决策阶段

Agent的"思考"阶段:

当前状态 + 目标 → 评估选项 → 选择最佳行动

  • 评估可能行动
  • 考虑目标和约束
  • 根据可用信息选择最优行动

4.3 行动阶段

Agent 的"执行"阶段:

执行行动 → 观察变化 → 开始新循环

  • 通过执行器执行选定行动
  • 环境因此发生变化
  • Agent 通过传感器观察结果,开始新循环

该循环持续重复,通常每秒多次。其强大之处在于:

1. 适应性: 若发生意外, Agent 能在下次感知阶段检测并调整行动

2. 学习机会: Agent 可比较预测结果与实际结果以改进未来决策

3. 目标导向行为: 每个循环都推动 Agent 向目标迈进,同时遵守约束(螺旋式上升)

通过恒温器类比,编程层面比较三个复杂度级别:

  1. 简单程序
yaml 复制代码
1# 简单程序
​
2if temperature > desired_temperature:
​
3    turn_on_cooling()
  • 仅遵循固定规则
  • 不考虑后果
  • 无学习或适应

2. 响应式程序

ini 复制代码
1# 响应式程序
​
2if temperature > desired_temperature:
​
3    if time_of_day == "peak_hours":
​
4        turn_on_cooling_eco_mode()
​
5    else:
​
6        turn_on_cooling_normal()
  • 更复杂规则
  • 一定上下文感知
  • 仍无真正智能

3. AI Agent

ini 复制代码
1class SmartThermostat:
​
2    def perceive(self):
​
3        current_temp = get_temperature()
​
4        time = get_time()
​
5        electricity_price = get_current_price()
​
6        weather_forecast = get_forecast()
​
7        user_preferences = get_preferences()
​
8        return Environment(current_temp, time, electricity_price,
​
9                         weather_forecast, user_preferences)
​
10
​
11    def think(self, environment):
​
12        possible_actions = [
​
13            NoAction(),
​
14            CoolNormal(),
​
15            CoolEco(),
​
16            PreCool(),
​
17            WaitForOffPeak()
​
18        ]
​
19
​
20        # 评估每个行动的预期结果
​
21        best_action = None
​
22        best_utility = float('-inf')
​
23
​
24        for action in possible_actions:
​
25            predicted_state = predict_future_state(environment, action)
​
26            utility = calculate_utility(predicted_state)
​
27
​
28            if utility > best_utility:
​
29                best_action = action
​
30                best_utility = utility
​
31
​
32        return best_action
​
33
​
34    def act(self, action):
​
35        action.execute()
​
36        monitor_results()
​
37        update_learning_model()
  • 考虑多因素
  • 预测结果
  • 从经验中学习
  • 优化长期目标
  • 平衡竞争目标

该循环适用于所有 AI Agent:

  • 聊天机器人感知文本输入,决定响应并生成文本
  • 交易机器人感知市场数据,决定交易策略并下单
  • 扫地机器人感知房间布局和灰尘,决定清洁路径并启动清洁机制

5. AI Agent 如何运作?


假设你的智能冰箱不仅能在牛奶喝完时自动补货,还能根据你的浏览记录建议改用杏仁奶。这究竟是贴心服务还是令人不安?由你判断!

这正是 AI Agent 的典型应用。

AI Agent 能理解人类语言(借助 LLM)、推理信息、规划行动并自主执行任务。它们解决复杂问题,远超越简单自动化工具。与基础脚本不同,AI Agent 集成到软件系统中,实现与环境的复杂交互。

AI Agent 与简单自动化的区别?

区别源于两大核心能力:

  • 工具使用
  • 规划能力

你已见过 ChatGPT 在基础数学题上出错,因为它仅基于训练数据响应。同理,若要求你计算85乘65,作为人类,你可以直接作答(若已知答案)或使用计算器工具,对吗?

AI Agent 同理,赋予其工具访问权限。

第二要素是规划。

同一数学计算,只有知晓乘法或知道向计算器传递参数(85、65及乘法运算)才能解题。这正是规划与推理的作用。

以下是查询 AI Agent 时的流程:

5.1 编排层(控制中心)

假设创建会议安排 AI Agent,查询:"我想为所有学生举办网络研讨会"。

该查询将触发 AI Agent。

编排层 | 图片来源:Himanshu Ramchandani

查询可以是文本、音频、视频或图像。(已知无论数据类型如何,最终都会转换为机器可处理的数值)

查询由编排层(即 Agent 控制中心)处理。

编排层四大功能:

  • 记忆:维护整个交互过程的记忆
  • 状态:存储当前进程状态
  • 推理:指导 Agent 的推理过程
  • 规划:确定步骤及下一步行动

图片来源:lyzr

编排层将与模型(LLM)交互。

5.2 模型(大脑)

模型是整个 Agent 的中央决策者,通常是大型语言模型等AI模型。

AI Agent中的模型 | 图片来源:Himanshu Ramchandani

为理解查询、制定计划和确定下一步行动,模型使用推理和逻辑框架如:

  • ReAct(Reasion+Act): (推理+行动)确保审慎行动
  • 思维链: 通过中间步骤推理
  • 思维树: 探索多路径寻找最优解

模型决定采取的行动,并通过特定工具执行。

5.3 工具(双手)

通过工具, Agent 能与外部世界交互,如计算器、API、网络搜索、外部数据库等。

图片来源:Himanshu Ramchandani

工具使 Agent 能执行超越模型能力的行动、获取实时信息或完成现实任务。

6. ✅ 何时使用 Agent / ⛔ 何时避免使用


当需要 LLM 决定应用工作流时, Agent 很有用。但通常存在过度使用。核心问题是:是否真需要工作流灵活性来高效解决当前任务?若预定义工作流频繁失效,则需更高灵活性。以冲浪旅行网站客服应用为例:

已知请求属于两个预定义类别(基于用户选择),且每个类别有预定义工作流:

  1. 需要旅行知识 ⇒ 提供知识库搜索栏
  2. 联系销售 ⇒ 填写联系表单

若确定性工作流适配所有查询,直接编码即可!这将提供 100% 可靠系统,避免不可预测 LLM 介入导致错误。为简化和稳健性,建议规范化避免使用 Agent 行为。

但若工作流无法预先确定?

例如用户查询:"我周一能来,但忘带护照可能延迟到周三,能否周二早上接我和装备冲浪,并提供取消保险?"该问题涉及多因素,上述预定义标准均不适用。

若预定义工作流频繁失效,则需更高灵活性。这正是 Agent 式设置的用武之地。

此例中,可构建多步 Agent,配备天气 API 获取预报、Google Maps API 计算行程、员工可用性看板和知识库 RAG 系统。

传统计算机程序受限于预定义工作流,通过堆叠 if/else 开关处理复杂性,专注于极窄任务(如"计算数字总和"或"寻找图最短路径")。但现实任务(如上述旅行案例)往往不适用预定义工作流。 Agent 式系统为程序开启了现实任务处理的广阔天地!

7. 应用领域


AI Agent 是多功能工具,提升各领域生产力、效率和智能化水平,正日益应用于日常应用和高影响领域。

图片来源:lyzr

8. 结论


AI Agent 正改变技术交互方式,提供前所未有的自主性、智能和适应性。从简单反射 Agent 到复杂学习系统,它们正被跨行业应用以解决复杂问题和增强人类能力。但构建有效 AI Agent 面临伦理关切、数据依赖和可扩展性等挑战。

随着 AI 技术持续演进,AI Agent 未来潜力巨大。通过关注通用 AI、人机协作和伦理考量,我们可创建不仅高效执行任务,且符合人类价值观并为社会积极贡献的 Agent。

  • AI Agent 是能感知、决策和行动以实现目标的自主系统
  • 核心组件包括传感器、执行器、决策引擎和学习模块
  • 应用于虚拟助手、自动驾驶和医疗等领域

通过理解基础原理并关注进展,我们能利用 AI Agent 推动创新,创造更美好未来。

学习资源推荐

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在智泊AI

相关推荐
AI大模型2 小时前
12 节课解锁 AI Agents,让AI替你打工(二):从零开始构建一个Agent
程序员·llm·agent
申阳4 小时前
Day 11:集成百度统计以监控站点流量
前端·后端·程序员
用户48466566957494 小时前
最小可运行 Agent 架构图(专业版)
agent
xhxxx4 小时前
《从代码规范到智能体开发:构建面向未来的工程思维》
agent·ai编程
Baihai_IDP4 小时前
如何提升 LLMs 处理表格的准确率?一项针对 11 种格式的基准测试
人工智能·面试·llm
查老师5 小时前
就为这一个简单的 Bug,我搭上了整整一个工作日
后端·程序员
知了一笑5 小时前
很多人问:我能做独立开发吗?
程序员·独立开发
码农胖大海17 小时前
从逻辑到直觉,我的疑难问题方法论
程序员
mwq3012317 小时前
揭秘 MoE 训练的“三驾马车”
llm