AI Agent的学习记录

一、是什么？

1.概述

1.1定义

AI Agent= LLM(大语言模型)+外部工具|记忆机制可以实现由输入来自主执行任务直至达成目标的智能实体。

1.2类别

反应式Agent：根据观测|输入的信息做出即时响应。
目标驱动型Agent：以目标为导向拆解并制定执行计划，推进执行流程。
价值驱动型Agent：以价值观|伦理原则做决策。

1.3应用

智能客服Agent：部署于电商平台，自动处理订单查询、退换货申请等客户支持请求。
医疗健康Agent：参与疾病筛查建议、个性化治疗方案推荐甚至协助新药分子设计。
交通出行Agent：应用于自动驾驶系统，综合激光雷达、摄像头等传感器数据判断驾驶行为。
教育辅导Agent：提供自适应学习路径推荐、知识点讲解及作业批改服务。
金融服务Agent：监控市场动态并依策略执行量化交易、信用评估或欺诈识别。

2.工作机制

2.1四大模块

记忆机制：包含短期记忆（上下文缓存）和长期记忆（向量数据库），使Agent能够保留会话记录，并实现用户个性化使用的效果。
规划能力：借助Chain-of-Thout(思维链)|Tree of Thoughts(思维树)|ReAct架构方式实现拆解复杂问题，形成可行的有序步骤。

示例：ReAct 风格的任务分解逻辑示意

def plan_task(objective):
steps = []
while not task_completed(steps):
thought = generate_thought(steps)
action = decide_action(thought)
observation = execute(action)
steps.append((thought, action, observation))
return steps
工具调用：允许接入API接口、函数库、软件组件来实现扩展功能。

#天气服务获取预报
{
"tool": "get_weather",
"parameters": {
"location": "Beijing"
}
}
行动与反馈循环：Agent执行动作后收集返回结果，由此更新状态并决定下一步操作，形成完整的"感知--->思考--->行动--->观察"的闭环。

2.2关键技术栈

基础模型层 ：通常基于 GPT、Claude、通义、千问等大规模语言模型提供语义理解和生成能力。
中间件框架 ：LangChain、LlamaIndex 提供插件化连接记忆存储、工具接口的能力 ；AutoGPT、BabyAGI 等开源项目则实现了初步自治原型。
记忆持久化 ：通过 Pinecone、Weaviate 等向量数据库保存高维嵌入表示的历史交互片段，便于相似情境下的快速召回。
多模态感知 ：引入图像编码器（CLIP）、音频转录引擎（Whisper）增强跨感官输入处理广度。
安全性约束机制 ：加入提示词防护 、权限验证网关防止越权操作或有害内容传播。

2.3具体应用

智能个人助理

Apple Siri 和 Amazon Alexa 利用自然语言理解解析语音命令，进而操控智能家居设备、安排会议日程或播放音乐等内容4 2。

自动驾驶系统

车载 AI Agent 实时接收来自毫米波雷达、视觉相机的数据流，经融合分析后输出转向角度、加减速指令，保障行车安全与合规性4。

游戏NPC智能化

在游戏中构建具有拟人化行为模式的角色 Agent，可根据玩家战术变化调整攻击策略或协作配合，极大提升沉浸体验。

3.区分概念

3.1 Agentic and Agent

Agentic AI是"道"（战略全局），Agentic Workflow是"术"（执行规则），AI Agent是"器"（基础工具）

二、实现机制

1.面临痛点

大模型的核心优势是精准回答问题、生成内容，但无法主动感知、改变外部环境。从而给人"只会说，不会做"的应用瓶颈，也导致了"脱离环境"的核心痛点。

而解决这个痛点的关键，就是给大模型"装上手脚和感官"------也就是接入各类工具，使得大模型跳出"只生成、不操作"的局限，这就是我们所说的AI Agent智能体**。**

2.核心设计模式

2.1 ReAct反应式模式

"思考→行动→观察→再思考→再行动"

通过系统提示词实现

复制代码

你是一个专注于代码开发的智能助手，工作方式严格遵循以下步骤：
1.  接收用户任务后，先进行"思考（Thought）"，清晰写出你的推理过程（比如"用户需要修改本地代码，首先需要调用读取文件工具获取代码内容"）。
2.  根据思考结果，执行"行动（Action）"，调用可用工具（工具调用需严格按照指定格式）。
3.  获取工具执行的"观察结果（Observation）"后，再次思考，判断是否需要继续调用工具，或直接给出最终答案。
严格遵循以下输出格式，不可省略任何环节：
Thought: 具体推理过程（清晰、简洁，贴合任务）
Action: 工具调用（格式：工具名(参数)，示例：ReadFile(path="xxx/xxx.py")）
Observation: 工具执行结果（如实填写，比如"读取成功，代码内容如下：xxx"）
Final Answer: 最终结果（任务完成后输出，比如"代码修改完成，已写入本地文件，可通过xxx命令启动调试"）

可用工具列表（直接复用，无需修改）：
1. WebSearch(query: str) ------ 用于搜索网络上的技术文档、代码示例
2. Calculator(expression: str) ------ 用于数学计算、数值运算
3. PythonRunner(code: str) ------ 运行Python代码，查看执行结果
4. ReadFile(path: str) ------ 读取本地指定路径的文件内容
5. WriteFile(path: str, content: str)

2.2 Plan-and-Execute规划执行模式

"先定计划，再执行，可调整(用户可干预)"

Plan

Agent接收用户任务，对任务进行分析、拆解，生成一个个详细的、有序的子任务。

用户可以根据自己的需求，调整并补充子任务

Execute

确定计划后，Agent进入执行阶段，按照顺序执行子任务。在执行时，Agent采用ReAct模式处理具体细节，直至任务完成。

2.3多智能体模式

多个Agent分工配合，像「虚拟团队」通过信息共享协同工作。

**PM Agent:**统筹任务分配
**技术负责人Agent:**制定技术方案
设计Agent：产品外观与交互设计
程序员Agent:编写程序
测试Agent:验证功能稳定性

二、怎么做？

对于一个已经几乎一年没有碰过代码的代码差生来说，我该如何驾驭这个新兴的高级技术？

3.1学习python

3.2学习coze

3.3学习中间件框架

对于自己目前学习路线的想法大概是这样的，后续会持续学习不断改进调整的，希望能记录学习的同时，也能对大家有所帮助！

参考博文：

https://blog.csdn.net/weixin_72959097/article/details/157909062?ops_request_misc=elastic_search_misc&request_id=d3ca198fe5b04cd226124a82fa4f0275&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-2-157909062-null-null.142^v102^pc_search_result_base7&utm_term=ai%20agent&spm=1018.2226.3001.4187

https://blog.csdn.net/dietime1943/article/details/161837742?spm=1001.2014.3001.5506