第1课:AI Agent是什么 - 学习笔记_1

第1课:AI Agent是什么 - 学习笔记

📚 课程核心主题

本节课主要讲解:如何构建具有记忆和持久性的AI系统,让AI系统能够越用越聪明、越用越牛。


🎯 第一部分:AI发展的背景和趋势

1. AI模型的演进

  • 传统AI模型(2018年之前)

    • 使用PyTorch、TensorFlow自己训练模型
    • 针对特定业务场景构建小规模模型
    • 属于判别式模型(只做判断和识别,比如识别图片中的物体)
  • 现代AI模型(大语言模型时代)

    • 使用现成的大语言模型(如千问、GPT等)
    • 模型具备更强的通用能力

2. 最新趋势:带记忆的AI模型

  • 谷歌发布的世界模型(Gemini)
    • 具备记忆功能
    • 传统大语言模型(LLM)是无状态的、不带记忆的
    • 世界模型能够记住之前的状态,更接近人类的认知方式

小例子理解记忆功能:

  • 就像工人刷油漆,切换到另一个位置后,再回来看,油漆还在那里(有记忆)
  • 传统模型像"健忘症",每次对话都是全新的,不记得之前发生了什么

🛠️ 第二部分:AI应用开发的两条主流路线

路线一:Workflow(工作流编排)

是什么: 提前编排好一系列复杂的流程步骤

特点:

  • 流程是提前设计好的、固定的
  • 每一步都要按照预设的流程走
  • 适合复杂的业务流程
  • 可能涉及人工审核等多步骤环节

适合场景:

  • 有固定流程的复杂业务系统
  • 需要人工介入审核的流程
  • 步骤明确、可预测的业务场景

路线二:Agent(智能体/代理)

是什么: 能够自主规划、自主执行的AI系统

特点:

  • 不是固定的流程,而是自主决策
  • 利用大语言模型的推理能力
  • 能够做:意图识别 → 规划(Planning)→ 调用工具执行 → 自我反思改进

工作流程:

  1. 用户输入诉求
  2. AI做意图识别(理解用户想要什么)
  3. 做规划(Plan:思考如何完成)
  4. 调用工具执行
  5. 拿到结果后自我反思,改进执行过程

适合场景:

  • 需要自主完成任务的系统
  • 高度自动化的场景
  • 无法提前预设固定流程的复杂任务

📝 如何选择?

  • 用Workflow:如果业务有明确的、可预测的复杂流程
  • 用Agent:如果需要系统自主决策和规划,完成灵活的任务

🤖 第三部分:AI Agent的定义(核心内容)

官方定义

**AI Agent(人工智能代理/智能体)**指的是:

利用大语言模型的推理能力,来规划、观察和执行整个行动,从而追求实现目标的一个系统。

关键要点拆解

  1. 核心能力来源:大语言模型的推理能力

    • Agent本身不产生智能,它依赖大语言模型的推理能力
    • 没有大模型,就没有Agent
  2. 三大核心能力:

    • 规划(Planning):思考如何完成任务
    • 观察(Observing):感知环境和状态
    • 执行(Executing):调用工具、采取行动
  3. 目标导向:

    • 所有行动都是为了实现某个目标
    • 不是随机行为,而是有明确目的

AI Agent的影响和意义

  • 推动市场变革
  • 显著提升生产效率
  • 实现高度自动化
  • 可能的应用:
    • 取代员工的日常工作
    • 部署数字人执行关键业务
    • 取代传统的SaaS服务

💡 关键概念总结

概念 简单理解
Agent(智能体) 能自主思考、规划、执行的AI系统
Workflow(工作流) 提前编排好的固定流程
记忆功能 AI能记住之前的状态和对话
无状态模型 每次对话都是全新的,不记得之前的事
推理能力 AI思考、分析、决策的能力
自主规划 不是按固定流程,而是自己思考怎么做

❓ 思考题(帮助理解)

  1. Agent和Workflow的主要区别是什么?

    • 答:Agent是自主规划执行的,Workflow是固定流程的
  2. 为什么说Agent依赖大语言模型的推理能力?

    • 答:因为Agent需要推理能力来规划、思考,这些能力来自大模型
  3. 带记忆的AI模型有什么优势?

    • 答:能记住之前的状态,更接近人类认知,更智能

📌 本节课重点回顾

AI Agent的定义: 利用大模型推理能力,自主规划、观察、执行以实现目标的系统

两种开发路线: Workflow(固定流程)vs Agent(自主规划)

AI发展趋势: 从无记忆模型向带记忆模型发展

Agent的核心: 规划 + 观察 + 执行,目标是实现用户诉求


笔记整理时间:2024年
建议:如果还有不理解的概念,可以结合课程视频反复观看对应部分

相关推荐
测试员周周8 小时前
【Appium 系列】第16节-WebView-H5上下文切换 — 混合应用的自动化难点
运维·开发语言·人工智能·功能测试·appium·自动化·测试用例
K姐研究社10 小时前
怎么用AI制作电商口播视频,开拍APP一键生成
人工智能·音视频
LaughingZhu10 小时前
Product Hunt 每日热榜 | 2026-05-21
前端·人工智能·经验分享·chatgpt·html
辰海Coding11 小时前
MiniSpring框架学习笔记-解决循环依赖的简化IoC容器
笔记·学习
晓梦林11 小时前
cp520靶场学习笔记
android·笔记·学习
传说故事11 小时前
【论文阅读】MotuBrain: An Advanced World Action Model for Robot Control
论文阅读·人工智能·具身智能·wam
北京耐用通信11 小时前
全域适配工业场景耐达讯自动化Modbus TCP 转 PROFIBUS 网关轻松实现以太网与现场总线互通
网络·人工智能·网络协议·自动化·信息与通信
火山引擎开发者社区11 小时前
TRAE × 火山引擎 Supabase:为你的 AI 应用装上“数据引擎”
人工智能
小a彤12 小时前
GE 在 CANN 五层架构中的位置
人工智能·深度学习·transformer
心中有国也有家12 小时前
cann-recipes-infer:昇腾 NPU 推理的“菜谱集合”
经验分享·笔记·学习·算法