AI Agent的学习记录

一、是什么?

1.概述

1.1定义

AI Agent= LLM(大语言模型)+外部工具|记忆机制 可以实现由输入来自主执行任务直至达成目标的智能实体。

1.2类别

  • 反应式Agent:根据观测|输入的信息做出即时响应。

  • 目标驱动型Agent:以目标为导向拆解并制定执行计划,推进执行流程。

  • 价值驱动型Agent:以价值观|伦理原则做决策。

1.3应用

  • 智能客服Agent:部署于电商平台,自动处理订单查询、退换货申请等客户支持请求。

  • 医疗健康Agent:参与疾病筛查建议、个性化治疗方案推荐甚至协助新药分子设计。

  • 交通出行Agent:应用于自动驾驶系统,综合激光雷达、摄像头等传感器数据判断驾驶行为。

  • 教育辅导Agent:提供自适应学习路径推荐、知识点讲解及作业批改服务。

  • 金融服务Agent:监控市场动态并依策略执行量化交易、信用评估或欺诈识别。

2.工作机制

2.1四大模块

  • 记忆机制:包含短期记忆(上下文缓存)和长期记忆(向量数据库),使Agent能够保留会话记录,并实现用户个性化使用的效果。

  • 规划能力:借助Chain-of-Thout(思维链)|Tree of Thoughts(思维树)|ReAct架构方式实现拆解复杂问题,形成可行的有序步骤。

    示例:ReAct 风格的任务分解逻辑示意

    def plan_task(objective):
    steps = []
    while not task_completed(steps):
    thought = generate_thought(steps)
    action = decide_action(thought)
    observation = execute(action)
    steps.append((thought, action, observation))
    return steps

  • 工具调用:允许接入API接口、函数库、软件组件来实现扩展功能。

    #天气服务获取预报
    {
    "tool": "get_weather",
    "parameters": {
    "location": "Beijing"
    }
    }

  • 行动与反馈循环:Agent执行动作后收集返回结果,由此更新状态并决定下一步操作,形成完整的"感知--->思考--->行动--->观察"的闭环。

2.2关键技术栈

  • 基础模型层 :通常基于 GPT、Claude、通义、千问等大规模语言模型提供语义理解和生成能力

  • 中间件框架 :LangChain、LlamaIndex 提供插件化连接记忆存储、工具接口的能力 ;AutoGPT、BabyAGI 等开源项目则实现了初步自治原型

  • 记忆持久化 :通过 Pinecone、Weaviate 等向量数据库保存高维嵌入表示的历史交互片段,便于相似情境下的快速召回。

  • 多模态感知 :引入图像编码器(CLIP)、音频转录引擎(Whisper)增强跨感官输入处理广度。

  • 安全性约束机制 :加入提示词防护权限验证网关防止越权操作或有害内容传播。

2.3具体应用

智能个人助理

Apple Siri 和 Amazon Alexa 利用自然语言理解解析语音命令,进而操控智能家居设备、安排会议日程或播放音乐等内容4 2

自动驾驶系统

车载 AI Agent 实时接收来自毫米波雷达、视觉相机的数据流,经融合分析后输出转向角度、加减速指令,保障行车安全与合规性4

游戏NPC智能化

在游戏中构建具有拟人化行为模式的角色 Agent,可根据玩家战术变化调整攻击策略或协作配合,极大提升沉浸体验。

3.区分概念

3.1 Agentic and Agent

Agentic AI是"道"(战略全局),Agentic Workflow是"术"(执行规则),AI Agent是"器"(基础工具)

二、实现机制

1.面临痛点

大模型的核心优势是精准回答问题、生成内容,但无法主动感知、改变外部环境。从而给人"只会说,不会做"的应用瓶颈,也导致了"脱离环境"的核心痛点。

而解决这个痛点的关键,就是给大模型"装上手脚和感官"------也就是接入各类工具,使得大模型跳出"只生成、不操作"的局限,这就是我们所说的AI Agent智能体**。**

2.核心设计模式

2.1 ReAct反应式模式

"思考→行动→观察→再思考→再行动"

通过系统提示词实现

复制代码
你是一个专注于代码开发的智能助手,工作方式严格遵循以下步骤:
1.  接收用户任务后,先进行"思考(Thought)",清晰写出你的推理过程(比如"用户需要修改本地代码,首先需要调用读取文件工具获取代码内容")。
2.  根据思考结果,执行"行动(Action)",调用可用工具(工具调用需严格按照指定格式)。
3.  获取工具执行的"观察结果(Observation)"后,再次思考,判断是否需要继续调用工具,或直接给出最终答案。
严格遵循以下输出格式,不可省略任何环节:
Thought: 具体推理过程(清晰、简洁,贴合任务)
Action: 工具调用(格式:工具名(参数),示例:ReadFile(path="xxx/xxx.py"))
Observation: 工具执行结果(如实填写,比如"读取成功,代码内容如下:xxx")
Final Answer: 最终结果(任务完成后输出,比如"代码修改完成,已写入本地文件,可通过xxx命令启动调试")

可用工具列表(直接复用,无需修改):
1. WebSearch(query: str) ------ 用于搜索网络上的技术文档、代码示例
2. Calculator(expression: str) ------ 用于数学计算、数值运算
3. PythonRunner(code: str) ------ 运行Python代码,查看执行结果
4. ReadFile(path: str) ------ 读取本地指定路径的文件内容
5. WriteFile(path: str, content: str) 

2.2 Plan-and-Execute规划执行模式

"先定计划,再执行,可调整(用户可干预)"

  • Plan

Agent接收用户任务,对任务进行分析、拆解,生成一个个详细的、有序的子任务。

用户可以根据自己的需求,调整并补充子任务

  • Execute

确定计划后,Agent进入执行阶段,按照顺序执行子任务。在执行时,Agent采用ReAct模式处理具体细节,直至任务完成。

2.3多智能体模式

多个Agent分工配合,像「虚拟团队」通过信息共享协同工作。

  • **PM Agent:**统筹任务分配
  • **技术负责人Agent:**制定技术方案
  • 设计Agent:产品外观与交互设计
  • 程序员Agent:编写程序
  • 测试Agent:验证功能稳定性

二、怎么做?

对于一个已经几乎一年没有碰过代码的代码差生来说,我该如何驾驭这个新兴的高级技术?

3.1学习python

3.2学习coze

3.3学习中间件框架

对于自己目前学习路线的想法大概是这样的,后续会持续学习不断改进调整的,希望能记录学习的同时,也能对大家有所帮助!

参考博文:

https://blog.csdn.net/weixin_72959097/article/details/157909062?ops_request_misc=elastic_search_misc&request_id=d3ca198fe5b04cd226124a82fa4f0275&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-2-157909062-null-null.142^v102^pc_search_result_base7&utm_term=ai%20agent&spm=1018.2226.3001.4187

https://blog.csdn.net/dietime1943/article/details/161837742?spm=1001.2014.3001.5506

相关推荐
ken22322 小时前
文本编辑器默认字体 收集
学习
H__Rick3 小时前
C51学习-DAY6
单片机·嵌入式硬件·学习
YM52e3 小时前
手写模型集合书籍鸿蒙PC ArkTS 对象字面量类型问题约束深度解析
学习·华为·harmonyos·鸿蒙
hhcgchpspk3 小时前
xss漏洞学习笔记
笔记·学习·网络安全·xss
情绪总是阴雨天~4 小时前
OCR光学字符识别技术:完整原理与实战学习笔记
笔记·学习·ocr
searchforAI4 小时前
B站视频怎么转文字稿?AI自动总结要点+生成思维导图教程
人工智能·笔记·学习·ai·语音识别·知识管理·视频总结
只做人间不老仙4 小时前
C++ grpc 拦截器示例学习
开发语言·c++·学习
踏着七彩祥云的小丑4 小时前
Go学习第7天:Map集合 + 递归函数 + 类型转换
开发语言·学习·golang·go
me8324 小时前
【AI】Langchain4j开发学习笔记
人工智能·笔记·学习