AI大模型微调-Agent(智能体)的核心概念:感知、规划、决策、执行

一、先看一个生动例子:送外卖的外卖员Agent

1. 完整过程展示

复制代码
任务:把披萨从餐厅送到客户家

感知阶段(外卖员的眼睛和耳朵):
- 看到餐厅地址:万达广场3楼
- 听到订单信息:客户在阳光小区5栋201
- 查看手机:下午5点,高峰期
- 感受天气:正在下雨

规划阶段(外卖员的大脑思考路径):
1. 去餐厅取餐 → 万达广场3楼
2. 选择交通方式:
   - 选项A:步行(慢但不会被堵)
   - 选项B:电动车(快但下雨危险)
   - 选项C:开车(舒适但可能堵车)
3. 规划路线:
   - 万达广场 → 人民路 → 阳光路 → 阳光小区
4. 预计时间:30分钟

决策阶段(外卖员做选择):
- 交通方式:选电动车(因为快,穿雨衣解决下雨)
- 路线:选择人民路(虽然车多,但红绿灯少)
- 备选方案:如果堵车,改走小巷

执行阶段(外卖员实际行动):
1. 穿上雨衣,骑上电动车
2. 按规划路线出发
3. 路上发现人民路车祸堵车 → 切换备选方案走小巷
4. 到达阳光小区,送上5栋201
5. 完成任务

这就是一个完整的Agent工作流程


二、四个核心概念详解

1. 感知(Perception):Agent的"感官系统"

感知就是收集信息,Agent要知道:
  • 我在哪?(环境状态)

  • 我要干嘛?(任务目标)

  • 周围有什么?(可用资源/障碍)

在AI中的具体体现:
复制代码
# Agent的感知可以来自:
1. 用户输入:"帮我写一个贪吃蛇游戏"
2. 系统状态:当前时间、内存使用、网络连接
3. 外部数据:天气API、股票数据、新闻
4. 历史记录:之前的对话、执行过的任务
关键点:
复制代码
感知 ≠ 只是“看到”
感知 = 理解上下文 + 提取关键信息

例子:
用户说:"我有点冷"
普通人听到:他在说温度
Agent感知到:他可能需要关窗、开暖气、拿外套等解决方案

2. 规划(Planning):Agent的"思考路径"

规划就是拆解任务,把大目标变成小步骤

例子:用户说"帮我做一份数据分析报告"

复制代码
❌ 错误规划:直接开始写代码
✅ 正确规划:
步骤1:确认需求(什么数据?什么分析?什么格式?)
步骤2:获取数据(从数据库?从文件?从API?)
步骤3:清洗数据(处理缺失值、异常值)
步骤4:分析数据(计算指标、画图表)
步骤5:撰写报告(总结发现、建议)
步骤6:输出结果(PDF?PPT?邮件发送?)
规划的核心技巧:逆向思维
复制代码
目标:做一份报告
倒推:
要报告 → 需要分析结果 → 需要清洗好的数据 → 需要原始数据 → 需要知道数据在哪
在AI Agent中的实现:
复制代码
# 大模型擅长规划,因为它读过很多“怎么做”的文本
用户提问:"如何学习Python?"

模型规划:
1. 安装Python环境
2. 学习基础语法
3. 做小项目练习
4. 学习进阶内容
5. 参与实际项目

3. 决策(Decision Making):Agent的"选择时刻"

决策就是在多个选项中选择最优解

经典决策场景:

复制代码
情境:要去机场,有三种方式
选项A:地铁(便宜准时,但要走1公里)
选项B:出租车(贵,可能不好打车)
选项C:专车(贵但舒适,时间可控)

决策依据:
- 预算多少?
- 时间多紧?
- 行李多少?
- 天气如何?
决策的三种类型:

类型1:基于规则(像红绿灯)

python

复制代码
if 下雨:
    带伞
else:
    不带伞

类型2:基于经验(像老司机)

复制代码
以前这条路堵车 → 今天换条路
上次这个方法有效 → 这次还用

类型3:基于预测(像天气预报)

复制代码
根据路况预测,这条路30分钟后会堵 → 现在就走
AI Agent的决策特点:
复制代码
优势:能考虑更多因素(人类可能忽略的)
劣势:可能过度思考,陷入“分析瘫痪”

4. 执行(Execution):Agent的"实际行动"

执行就是把计划变成现实

执行的关键要素:

复制代码
1. 工具使用:用什么做?
2. 步骤顺序:先做什么后做什么?
3. 质量监控:做的对不对?
4. 错误处理:出错了怎么办?
执行的三个层次:

层次1:简单执行(照做就行)

复制代码
计划:打开浏览器
执行:点击浏览器图标

层次2:需要判断的执行

复制代码
计划:从网上找资料
执行:
- 打开浏览器
- 搜索关键词
- 判断哪些是可靠来源
- 复制有用内容

层次3:创造性的执行

复制代码
计划:写一首关于春天的诗
执行:
- 构思意象(花开、鸟鸣)
- 选择韵律
- 组织语言
- 修改润色
AI Agent的执行方式:

python

复制代码
# 通常通过调用工具(Tools)来执行
工具库 = {
    "搜索": google_search,
    "计算": calculator,
    "写代码": write_code,
    "发邮件": send_email
}

# Agent根据规划选择工具
if 需要搜索信息:
    调用"搜索"工具
elif 需要计算:
    调用"计算"工具

三、用游戏NPC的例子理解Agent

游戏中的守卫NPC:

python

复制代码
class 守卫Agent:
    def 感知(self):
        """看到玩家、听到声音、接收命令"""
        - 看到玩家进入警戒范围
        - 听到异常的脚步声
        - 接到上级的警报
        
    def 规划(self):
        """决定怎么应对"""
        if 玩家是敌人:
            方案 = ["攻击", "呼叫支援", "拉警报"]
        elif 玩家可疑:
            方案 = ["盘问", "跟随观察"]
        else:
            方案 = ["继续巡逻"]
            
    def 决策(self):
        """选择具体行动"""
        if 玩家人数 > 3:
            选择 = "呼叫支援"
        elif 有武器:
            选择 = "攻击"
        else:
            选择 = "盘问"
            
    def 执行(self):
        """实际行动"""
        if 决策 == "攻击":
            - 拔剑
            - 冲向玩家
            - 挥剑攻击
        elif 决策 == "呼叫支援":
            - 吹哨子
            - 发射信号弹

四、现代AI Agent的架构(以LangChain为例)

1. ReAct模式(思考+行动循环)

复制代码
用户: "北京现在多少度?然后换算成华氏度"

Agent循环:
[思考] 用户需要两个信息:1.北京温度 2.温度换算
[行动] 调用天气API,获取北京温度:25°C
[思考] 需要将25°C转换成华氏度
[行动] 调用计算工具:25 × 9/5 + 32 = 77°F
[思考] 信息收集完成,准备回答
[回答] "北京现在25摄氏度,相当于77华氏度"

2. 具体实现代码框架

python

复制代码
# 简化的Agent结构
class 智能体:
    def __init__(self, 大脑=大模型, 工具库=[]):
        self.大脑 = 大脑  # 通常是LLM
        self.工具库 = 工具库
        
    def 运行(self, 用户输入):
        # 1. 感知:理解用户意图
        当前状态 = self.感知(用户输入)
        
        while not 任务完成:
            # 2. 规划:下一步做什么?
            计划 = self.大脑.生成计划(当前状态)
            
            # 3. 决策:用什么工具?怎么用?
            行动 = self.大脑.选择行动(计划, self.工具库)
            
            # 4. 执行:调用工具
            结果 = self.执行行动(行动)
            
            # 更新状态,继续循环
            当前状态.更新(结果)
            
        return 最终结果
    
    def 执行行动(self, 行动):
        if 行动.类型 == "调用工具":
            # 找到对应工具并执行
            工具 = self.工具库[行动.工具名]
            return 工具(行动.参数)
        elif 行动.类型 == "直接回答":
            return 行动.内容

五、Agent与普通AI助手的区别

普通AI助手(如ChatGPT)

复制代码
用户: "帮我查一下北京天气,然后告诉我该穿什么"
ChatGPT:
1. 我无法直接查天气(没有工具)
2. 但我可以告诉你:北京一般这个季节...
3. 建议穿...
→ 只能给通用建议,没有实际查天气

AI Agent(如ChatGPT+插件)

复制代码
用户: "帮我查一下北京天气,然后告诉我该穿什么"
Agent:
1. [感知] 用户需要实时天气和穿衣建议
2. [规划] 先查天气 → 再给穿衣建议
3. [决策] 调用天气API → 调用穿衣建议模型
4. [执行] 
   - 调用天气API:北京,晴,25°C
   - 分析:25°C,晴天 → 建议短袖+薄外套
5. [回答] "北京现在25°C,晴天,建议穿短袖加薄外套"

关键区别

复制代码
普通AI:只能说话
Agent:能说话 + 能做事(通过工具)

六、Agent的局限性(现实认识)

1. 感知可能出错

复制代码
用户说:"帮我删掉那个文件"
Agent困惑:哪个文件?是删掉还是移到回收站?

2. 规划可能不合理

复制代码
用户要泡茶,Agent规划:
1. 烧水(正确)
2. 找茶叶(正确)
3. 把水倒进茶杯(正确)
4. 把茶杯放进微波炉加热(错误!)

3. 决策可能僵化

复制代码
规则:红灯停
现实:救护车在后面,红灯也要让行
Agent:坚持红灯停(不会变通)

4. 执行可能失败

复制代码
计划:用Python下载数据
执行:网络断了,下载失败
Agent:卡住了,不知道怎么办

七、如何设计一个好的Agent?

设计原则:

复制代码
1. 感知要全面:多角度获取信息
2. 规划要灵活:有备选方案
3. 决策要合理:考虑成本和收益
4. 执行要可靠:有错误处理机制

实用技巧:

复制代码
# 1. 给Agent明确的角色
"你是一个经验丰富的游戏开发助手"

# 2. 提供清晰的工具描述
工具 = {
    "写代码": "用Python写游戏代码",
    "找素材": "推荐免费游戏素材网站",
    "查文档": "查找游戏引擎文档"
}

# 3. 设置合理的限制
- 最多尝试3次
- 超时自动放弃
- 重要操作需要确认

八、自己可以尝试的Agent实验

实验1:手动模拟Agent

复制代码
任务:用百度查"Python教程",然后总结前3个结果

手动模拟Agent思维:
1. 感知:任务 = 搜索 + 总结
2. 规划:
   - 打开浏览器
   - 访问百度
   - 搜索"Python教程"
   - 打开前3个结果
   - 总结共同点
3. 决策:
   - 用百度而不是谷歌(因为访问快)
   - 看前3个而不是前10个(效率)
4. 执行:
   - 实际完成上述步骤

实验2:观察现有AI的Agent行为

复制代码
在ChatGPT中使用"联网搜索"功能:
1. 观察它如何拆解你的问题
2. 观察它如何选择搜索关键词
3. 观察它如何总结搜索结果
4. 思考:如果是你,会怎么做?

九、未来展望:Agent会怎么发展?

短期(1-2年):

复制代码
- 更多专用工具(写代码、画图、分析数据)
- 更好的规划能力(处理复杂多步骤任务)
- 更强的错误恢复能力

长期(3-5年):

复制代码
- 真正自主的Agent(给定目标,全程自己完成)
- 多Agent协作(多个Agent分工合作)
- 与现实世界深度交互(控制智能家居、机器人)

最后总结:记住这个核心模型

Agent = 感知 + 规划 + 决策 + 执行

就像一个人

  • 感知:用眼睛看、耳朵听

  • 规划:用大脑思考怎么做

  • 决策:选择最佳方案

  • 执行:用手脚实际行动

AI学习目标

现在理解了概念,接下来要学习:

  1. 如何让AI具备这些能力(工具调用)

  2. 如何设计好的Agent流程(框架使用)

  3. 如何调试和改进Agent(优化策略)

理解了Agent的核心概念,你就理解了当前所有AI应用的底层逻辑。无论是Siri、小爱同学,还是未来的机器人,都遵循这个基本模式。

相关推荐
mCell10 小时前
为什么 Memo Code 先做 CLI:以及终端输入框到底有多难搞
前端·设计模式·agent
九.九10 小时前
ops-transformer:AI 处理器上的高性能 Transformer 算子库
人工智能·深度学习·transformer
春日见10 小时前
拉取与合并:如何让个人分支既包含你昨天的修改,也包含 develop 最新更新
大数据·人工智能·深度学习·elasticsearch·搜索引擎
恋猫de小郭10 小时前
AI 在提高你工作效率的同时,也一直在增加你的疲惫和焦虑
前端·人工智能·ai编程
deephub10 小时前
Agent Lightning:微软开源的框架无关 Agent 训练方案,LangChain/AutoGen 都能用
人工智能·microsoft·langchain·大语言模型·agent·强化学习
大模型RAG和Agent技术实践11 小时前
从零构建本地AI合同审查系统:架构设计与流式交互实战(完整源代码)
人工智能·交互·智能合同审核
老邋遢11 小时前
第三章-AI知识扫盲看这一篇就够了
人工智能
互联网江湖11 小时前
Seedance2.0炸场:长短视频们“修坝”十年,不如AI放水一天?
人工智能
PythonPioneer11 小时前
在AI技术迅猛发展的今天,传统职业该如何“踏浪前行”?
人工智能
冬奇Lab11 小时前
一天一个开源项目(第20篇):NanoBot - 轻量级AI Agent框架,极简高效的智能体构建工具
人工智能·开源·agent