第2课:深度剖析AI Agent核心模块 - 学习笔记_2

第2课:深度剖析AI Agent核心模块 - 学习笔记

📚 课程核心主题

本节课深入讲解AI Agent系统的三个核心组件,理解智能体系统是如何工作的。


🎯 AI Agent系统的架构(核心)

AI Agent系统是以LM(大语言模型)为驱动的,它包含三个关键组件:

  1. Planning(规划)
  2. Memory(记忆)
  3. Tool Calling(工具调用)

🧠 第一部分:Planning(规划模块)

Planning是什么?

规划是根据用户的输入,对用户诉求进行意图识别任务规划的过程。

Planning包含两个核心部分

1. 子目标拆解

是什么: 把一个复杂的任务分解为更小、更易于管理的子目标

作用:

  • 用户输入可能包含多个需求
  • 需要将这些需求进行拆分和分解
  • 从而能够高效地处理复杂的任务

例子理解:

  • 用户要做一个旅行规划
  • 需要拆解为:
    • 订机票
    • 订酒店
    • 规划行程(第一天、第二天、第三天)
    • 等等
2. 反思与改进(Self-Reflection)

是什么: 对过去的行为进行自我批评、自我反思

作用:

  • 从错误中吸取教训
  • 为未来的步骤进行改进
  • 提供更高的执行结果

例子理解:

  • 订酒店时,如果某个酒店订不到怎么办?
  • 能不能重新选择?
  • 经济舱没有的话,是不是可以切换路线?
  • 选择不同的服务商来订购

与传统RAG的区别(重要概念):

  • 传统RAG的问题: 被动式检索,一次性检索,无法知道检索的文档是否全面、相关度是否足够
  • 使用Agent后的改进:
    • 可以进行反思和改进
    • 如果检索的文档不足以回答问题
    • 可以重新执行检索(loop)
    • 这就是反思与改进的体现

💾 第二部分:Memory(记忆模块)

为什么需要Memory?

核心原因:

  • 现在的LM(大语言模型)不具备记忆能力
  • 它是单次对话,无状态的(stateless)
  • 只是一个token的生成过程

因此:

  • 为了让AI系统更智能,需要添加记忆存储功能

Memory的分类

1. 短期记忆(Short-term Memory)

是什么:

  • 情景学习(Context Learning)
  • 对话式场景的情景学习
  • 利用模型的短期记忆来进行学习

作用:

  • 记录当前对话的轮数
  • 记录每轮对话的内容
  • 保存在**上下文(Context)**里

特点:

  • 只在当前对话会话中有效
  • 关闭会话后,下次重新打开就丢失了

例子理解:

  • 就像你在和一个朋友聊天
  • 你们聊了10句话
  • 这些对话信息会临时保存在这次对话中
  • 但如果你关闭聊天,重新开启,之前的对话就没了
2. 长期记忆(Long-term Memory)

是什么:

  • 为代理提供较长时间内保留和回忆信息的能力
  • 通常利用外部的向量存储和快速检索来实现

作用:

  • 跨会话保留信息
  • 即使关闭了对话,下次还能记住

例子理解:

  • 用户偏好存储:

    • 比如用户订机票,总是选头等舱/商务舱
    • 用户订酒店,总是选四星级以上
    • 这些偏好应该存储起来
  • 个性化需求:

    • 下次做旅程规划时,AI应该知道用户的偏好
    • 系统会越来越聪明(越用越智能)

长期记忆的三种类型:

类型 用途 例子
语义记忆(Semantic Memory) 存储事实、概念、关系 基于RAG的检索,存储知识库信息
情景记忆(Episodic Memory) 存储具体事件、场景 用户之前预定的去伦敦的会议,喜欢住哪些城市
过程记忆(Procedural Memory) 存储执行过的动作和流程 学习预定航班的最佳流程,转机航班的间隔时间

关键点:

  • 不同的业务场景,使用不同的记忆类型
  • 需要根据应用需求来选择

🔧 第三部分:Tool Calling(工具调用)

为什么需要工具调用?

LM的局限性:

  • LM的认知停留在预训练阶段
  • 只有静态的全网知识
  • 无法获取实时、动态的信息

例子:

  • 查询天气(需要实时数据)
  • 查询股票走向(需要实时数据)
  • 查询最新的AI模型动态(需要最新信息)
  • 这些LM都不知道

解决方案:

  • 需要调用相应的工具来获取实时信息

工具调用的作用

  • 扩展LM的能力
  • 让AI系统能够执行实际操作
  • 获取实时、动态的数据

📊 三个模块的关系

复制代码
用户输入
    ↓
Planning(规划)
    ├→ 意图识别
    ├→ 子目标拆解
    └→ 反思与改进
    ↓
Memory(记忆)
    ├→ 短期记忆(当前对话)
    └→ 长期记忆(跨会话)
    ↓
Tool Calling(工具调用)
    └→ 执行实际操作
    ↓
返回结果

💡 关键概念总结

概念 简单理解
Planning(规划) 理解用户意图,拆解任务,反思改进
子目标拆解 把大任务分解成小任务
反思与改进 从错误中学习,重新执行
短期记忆 当前对话的上下文,关闭后丢失
长期记忆 跨会话保留信息,越用越智能
语义记忆 存储事实和概念
情景记忆 存储具体事件和场景
过程记忆 存储执行过的流程和方法
Tool Calling 调用外部工具获取实时信息

❓ 思考题

  1. 为什么传统RAG效果不好?

    • 答:被动式检索,一次性检索,无法判断检索结果是否全面,无法反思改进
  2. 短期记忆和长期记忆的主要区别?

    • 答:短期记忆只在当前会话有效,长期记忆可以跨会话保留
  3. 为什么需要工具调用?

    • 答:LM只能提供预训练时的静态知识,无法获取实时动态信息
  4. 三种长期记忆类型分别在什么场景使用?

    • 语义记忆:存储知识库、事实信息
    • 情景记忆:存储用户的历史事件、偏好
    • 过程记忆:存储执行流程和方法

📌 本节课重点回顾

AI Agent三大核心组件: Planning + Memory + Tool Calling

Planning的两个功能: 子目标拆解 + 反思与改进

Memory的分类: 短期记忆(当前会话) + 长期记忆(跨会话)

长期记忆的三种类型: 语义记忆、情景记忆、过程记忆

Tool Calling的作用: 扩展LM能力,获取实时信息


笔记整理时间:2024年
建议:理解三大模块的关系,这是构建AI Agent系统的基础

相关推荐
斯文by累2 小时前
AI产品推荐:NoteBookLM
人工智能
今儿敲了吗2 小时前
计算机网络第三章笔记(三)
笔记·计算机网络
沙漠的浪人2 小时前
Deep Research 怎么才算 "Deep"
人工智能·agent
Oflycomm2 小时前
高通推出新一代机器人全栈技术,加速家用与人形机器人物理 AI 落地
人工智能·高通·wifi7模块·ces2026·qogrisys·欧飞信
沙漠的浪人2 小时前
多Agent系统中的用户干预(Human-in-the-Loop)设计
人工智能·agent
Android技术之家2 小时前
在手机上跑大模型?Google AI Edge Gallery 开源项目深度解析
前端·人工智能·edge·开源
2301_800256112 小时前
【人工智能引论期末复习】第4章 机器学习1-基础知识
人工智能·算法·机器学习
quintin-lee2 小时前
现代 Neovim 插件全景图:从底层基建到 AI 驱动
人工智能·vim
3***g2052 小时前
Anaconda加速AI模型训练的技术文章大纲环境配置与优化
人工智能