一、是什么?
1.概述
1.1定义
AI Agent= LLM(大语言模型)+外部工具|记忆机制 可以实现由输入来自主执行任务直至达成目标的智能实体。
1.2类别
-
反应式Agent:根据观测|输入的信息做出即时响应。
-
目标驱动型Agent:以目标为导向拆解并制定执行计划,推进执行流程。
-
价值驱动型Agent:以价值观|伦理原则做决策。
1.3应用
-
智能客服Agent:部署于电商平台,自动处理订单查询、退换货申请等客户支持请求。
-
医疗健康Agent:参与疾病筛查建议、个性化治疗方案推荐甚至协助新药分子设计。
-
交通出行Agent:应用于自动驾驶系统,综合激光雷达、摄像头等传感器数据判断驾驶行为。
-
教育辅导Agent:提供自适应学习路径推荐、知识点讲解及作业批改服务。
-
金融服务Agent:监控市场动态并依策略执行量化交易、信用评估或欺诈识别。
2.工作机制
2.1四大模块
-
记忆机制:包含短期记忆(上下文缓存)和长期记忆(向量数据库),使Agent能够保留会话记录,并实现用户个性化使用的效果。
-
规划能力:借助Chain-of-Thout(思维链)|Tree of Thoughts(思维树)|ReAct架构方式实现拆解复杂问题,形成可行的有序步骤。
示例:ReAct 风格的任务分解逻辑示意
def plan_task(objective):
steps = []
while not task_completed(steps):
thought = generate_thought(steps)
action = decide_action(thought)
observation = execute(action)
steps.append((thought, action, observation))
return steps -
工具调用:允许接入API接口、函数库、软件组件来实现扩展功能。
#天气服务获取预报
{
"tool": "get_weather",
"parameters": {
"location": "Beijing"
}
} -
行动与反馈循环:Agent执行动作后收集返回结果,由此更新状态并决定下一步操作,形成完整的"感知--->思考--->行动--->观察"的闭环。
2.2关键技术栈
-
基础模型层 :通常基于 GPT、Claude、通义、千问等大规模语言模型提供语义理解和生成能力。
-
中间件框架 :LangChain、LlamaIndex 提供插件化连接记忆存储、工具接口的能力 ;AutoGPT、BabyAGI 等开源项目则实现了初步自治原型。
-
记忆持久化 :通过 Pinecone、Weaviate 等向量数据库保存高维嵌入表示的历史交互片段,便于相似情境下的快速召回。
-
多模态感知 :引入图像编码器(CLIP)、音频转录引擎(Whisper)增强跨感官输入处理广度。
-
安全性约束机制 :加入提示词防护 、权限验证网关防止越权操作或有害内容传播。
2.3具体应用
智能个人助理
Apple Siri 和 Amazon Alexa 利用自然语言理解解析语音命令,进而操控智能家居设备、安排会议日程或播放音乐等内容4 2。
自动驾驶系统
车载 AI Agent 实时接收来自毫米波雷达、视觉相机的数据流,经融合分析后输出转向角度、加减速指令,保障行车安全与合规性4。
游戏NPC智能化
在游戏中构建具有拟人化行为模式的角色 Agent,可根据玩家战术变化调整攻击策略或协作配合,极大提升沉浸体验。
3.区分概念
3.1 Agentic and Agent
Agentic AI是"道"(战略全局),Agentic Workflow是"术"(执行规则),AI Agent是"器"(基础工具)
二、实现机制
1.面临痛点
大模型的核心优势是精准回答问题、生成内容,但无法主动感知、改变外部环境。从而给人"只会说,不会做"的应用瓶颈,也导致了"脱离环境"的核心痛点。
而解决这个痛点的关键,就是给大模型"装上手脚和感官"------也就是接入各类工具,使得大模型跳出"只生成、不操作"的局限,这就是我们所说的AI Agent智能体**。**
2.核心设计模式
2.1 ReAct反应式模式
"思考→行动→观察→再思考→再行动"

通过系统提示词实现
你是一个专注于代码开发的智能助手,工作方式严格遵循以下步骤:
1. 接收用户任务后,先进行"思考(Thought)",清晰写出你的推理过程(比如"用户需要修改本地代码,首先需要调用读取文件工具获取代码内容")。
2. 根据思考结果,执行"行动(Action)",调用可用工具(工具调用需严格按照指定格式)。
3. 获取工具执行的"观察结果(Observation)"后,再次思考,判断是否需要继续调用工具,或直接给出最终答案。
严格遵循以下输出格式,不可省略任何环节:
Thought: 具体推理过程(清晰、简洁,贴合任务)
Action: 工具调用(格式:工具名(参数),示例:ReadFile(path="xxx/xxx.py"))
Observation: 工具执行结果(如实填写,比如"读取成功,代码内容如下:xxx")
Final Answer: 最终结果(任务完成后输出,比如"代码修改完成,已写入本地文件,可通过xxx命令启动调试")
可用工具列表(直接复用,无需修改):
1. WebSearch(query: str) ------ 用于搜索网络上的技术文档、代码示例
2. Calculator(expression: str) ------ 用于数学计算、数值运算
3. PythonRunner(code: str) ------ 运行Python代码,查看执行结果
4. ReadFile(path: str) ------ 读取本地指定路径的文件内容
5. WriteFile(path: str, content: str)
2.2 Plan-and-Execute规划执行模式
"先定计划,再执行,可调整(用户可干预)"
- Plan
Agent接收用户任务,对任务进行分析、拆解,生成一个个详细的、有序的子任务。
用户可以根据自己的需求,调整并补充子任务
- Execute
确定计划后,Agent进入执行阶段,按照顺序执行子任务。在执行时,Agent采用ReAct模式处理具体细节,直至任务完成。
2.3多智能体模式
多个Agent分工配合,像「虚拟团队」通过信息共享协同工作。
- **PM Agent:**统筹任务分配
- **技术负责人Agent:**制定技术方案
- 设计Agent:产品外观与交互设计
- 程序员Agent:编写程序
- 测试Agent:验证功能稳定性
二、怎么做?
对于一个已经几乎一年没有碰过代码的代码差生来说,我该如何驾驭这个新兴的高级技术?
3.1学习python
3.2学习coze
3.3学习中间件框架
对于自己目前学习路线的想法大概是这样的,后续会持续学习不断改进调整的,希望能记录学习的同时,也能对大家有所帮助!
参考博文:
https://blog.csdn.net/dietime1943/article/details/161837742?spm=1001.2014.3001.5506