Agent学习——反思模式

之前关于Agent学习中,主要涉及提示链(顺序执行)、路由(动态选择)、并行(并发),这三个部分都是为了是的智能体能够应对复杂的任务,但是其输出的结果是肯定有不稳定的因素的 。所以这里接下来进一步学习反思模式(像人一样根据自身的状态进行自我纠正,自我改进,本质上是循环反馈 )故需要嵌套循环,以及依据评估结果给出终止循环的条件

反思模式一般的实现方式是:借助另外一个大模型,并给他一个提示身份(如高级建筑工程师身份),让其对另外一个直接参与内容生成的Agent输出的内容进行评估

这种方式使得各个Agent之间的职责被分离 ,用与内容生成的Agent专精于内容的产生,评估该Agent的Agent能专精于Agent的评估

其开发工具为:Langchain和Google ADK

python 复制代码
实现逻辑:
循环条件:当前轮次 < 最大轮数
每次循环:
    
    A. 生成/优化阶段
    ┌─ 如果 当前轮次 == 0:
    │     输入 = 任务描述
    │     提示 = "请完成这个任务"
    └─ 否则:
         输入 = 对话历史 + 最新反馈
         提示 = "请根据反馈优化结果"
    
    B. 调用AI生成
    ┌─ 发送输入给AI模型
    │  接收AI的回复
    │  当前结果 = AI回复内容
    └─ 记录到历史:对话历史.append({"role": "assistant", "content": 当前结果})
    
    C. 评估阶段
    ┌─ 构建评估提示:
    │  "你是一个严格的评估者。"
    │  "原始任务:[任务描述]"
    │  "当前结果:[当前结果]"
    │  "如果完美,回复'满意',否则提改进建议。"
    └─ 获取评估结果 = AI回复
    
    D. 终止判断
    ┌─ 如果 评估结果包含"满意":
    │     结束循环
    │  否则如果 当前轮次 == 最大轮数-1:
    │     结束循环
    └─ 否则:
         记录反馈到历史:对话历史.append({"role": "user", "content": 评估结果})
         当前轮次 += 1
         继续下一轮
相关推荐
Code_流苏1 小时前
DeepSeek V4 Flash测评:更快、更省,日常体验依旧很稳!
ai·agent·深度求索·日常体验·deepseek v4·高效模型
星幻元宇VR1 小时前
VR禁毒骑行系统|以沉浸式体验提升禁毒宣传教育效果
人工智能·科技·学习·安全·vr·虚拟现实
Hua-Jay2 小时前
OpenCV联合C++/Qt 学习笔记(二十三)----图像校正及单目位姿估计
c++·笔记·qt·opencv·学习·计算机视觉
水木流年追梦2 小时前
大模型入门-预训练、SFT 有监督学习
人工智能·学习·机器学习
魔法阵维护师2 小时前
从零开发游戏需要学习的c#模块,第十八章(2D 碰撞检测与金币收集)
学习·游戏·c#
Cat_Rocky2 小时前
k8s zabbix7学习-设置告警
学习·容器·kubernetes
Upsy-Daisy2 小时前
AI Agent 项目学习笔记(九):网页搜索、网页抓取与资源下载工具
笔记·python·学习
辰海Coding2 小时前
MiniSpring框架学习-增加事件发布的简化 IoC 容器
java·学习·spring·java-ee
阳光九叶草LXGZXJ2 小时前
达梦数据库-学习-57-读写数据页超时告警排查(page[x,x,xxxxxx] disk write uses)-DSC集群版
linux·运维·服务器·数据库·sql·学习
xian_wwq2 小时前
【学习笔记】探讨大模型应用安全建设系列4——Agent 权限治理与工具调用安全
笔记·学习·安全