【Agent智能体8 | 反思设计模式-大语言模型反思机制的四个演进阶段】

声明:本篇博客是以吴恩达的【Agent智能体】教程为基础,并对其中的内容做了笔记整理以及个人收获的总结。

大模型的反思机制跟人类一样,有时会反思自己的输出并寻求改进。这篇文章主要是介绍反思机制的演进过程。

人类的反思机制(Reflection - humans)

这张图展示了人类在日常工作中是如何运用"反思"的:

  • 人类写出一封初版邮件
  • 发现问题 :在发送前进行自我检查,发现了几个问题:
    • "下个月(next month)"缺乏具体日期。
    • 把"free"打成了"fre"。
    • 忘记在文末署名。
  • 改进:经过反思和修改,输出了完善后的第二版邮件(Email V2)

总结 :写初稿 →\rightarrow→ 审查 →\rightarrow→ 修改出终稿,这是人类保证工作质量的本能习惯。

智能体 AI 的反思机制(Reflection - Agentic AI)

智能体的反思机制也是类似的,我们可以将人类的反思机制映射到 AI 大语言模型的工作流中:

  • 开始:给 LLM 下达"写一封邮件"的指令,LLM 生成第一版草稿(Email V1)。
  • 反思 :在传统的应用中,V1 会被直接输出给用户。但在智能体工作流中,系统会将被放入一个硬编码的反馈循环中,要求 LLM "反思并写出改进后的第二版(Reflect and write improved second draft)"。
  • 通过让 LLM 扮演"审查者"的角色,对自己的初始输出进行纠错,从而输出质量更高的最终版本(Email v2)。

这个例子是把这个流程硬编码 下来,先提示LLM写一遍再提示它反思和改进

类似的流程也能优化其他类型的输出,例子如下:

用于改进代码的反思(Reflection to improve code)

这个例子,展示了反思机制在编程中的具体应用:

  • 开始:要求写一段代码(task X),第一个 LLM 生成初版代码(code V1)。
  • 反思:多模型协作 :初版代码被送入LLM 2进行审查。图中标注:LLM 2 可以是一个不同的模型(例如专门针对代码或逻辑训练的推理模型)
  • LLM 2 检查 Bug 并写出改进后的第二版代码(do_task_v2)。

这个例子告诉我们:在复杂任务中,生成代码和审查代码可以由不同的 AI 模型负责,利用"交叉检查"来提升代码的质量,不同的LLM有不同的优势,要合理利用!

与其只让LLM反思代码,但事实证明,外部反馈(来自LLM之外的新信息),反思的效果会更加强大,例子如下:

结合外部反馈的反思(Reflection with external feedback)

这个图展示了反思机制的最高阶形态------引入真实的外部运行环境

  • 开始 :LLM 写出初版代码(code V1)后,不再仅仅依赖另一个模型去找 Bug,而是直接执行代码(execute code)
  • 获得真实反馈 :代码运行后会产生实际的输出或报错信息(例如图中的 SyntaxError: unterminated string literal... 语法错误)。
  • 基于反馈的反思:将这些真实的报错信息和初版代码一起交给 LLM。LLM 基于具体的执行错误进行反思,从而精准定位并修复问题,输出第二版代码。

总结一句话:通过"实践"来检验真理。这种利用反馈进行的方式比LLM自己反思效果要更好,输出的结果质量要更高!

总结

人类本能 →\rightarrow→ AI 内部自我反思 →\rightarrow→ 多 AI 模型交叉反思 →\rightarrow→ 基于外部真实环境反馈的反思。

通过这篇文章,我们不能再简单的把大模型当成一个简单的"你问我答"的聊天工具(传统的直接生成),而是要把它看作一个拥有"反思能力"的智能体(Agent)

如果这篇文章对你有帮助,欢迎点赞、评论、关注、收藏。你们的支持是我前进的动力!

相关推荐
虹科网络安全1 小时前
艾体宝洞察|“顶会”看安全(八):针对预训练大语言模型的仅标签成员推断攻击
人工智能·安全·语言模型
IT_陈寒1 小时前
Vite热更新把我整不会了,原来还要这样配!
前端·人工智能·后端
skywalk81631 小时前
使用llama.cpp运行模型unsloth/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf 速度大约5.5 token/s
人工智能·llama
暴躁小师兄数据学院1 小时前
【AI大模型应用开发工程师特训笔记】第04讲(第1章):Python基础与环境搭建
人工智能·笔记·python·ai
架构源启1 小时前
Spring AI进阶系列(11) Spring AI Multi-Agent 协作系统:辩论、投票与共识机制实战
java·人工智能·spring
无心水1 小时前
金融系统数据一致性之战:联机交易与批量作业的冲突处理完全指南
人工智能·金融·wpf·批量作业·顶尖架构师·联机交易·金融架构师
AI服务老曹1 小时前
源码交付与低代码解耦:基于 Docker 的边缘计算 AI 视频管理平台二次开发深度实战(兼容 GB28181/RTSP)
人工智能·docker·媒体
今天吃饺子1 小时前
50种近五年主流深度学习模型×10种时频方法,故障诊断、分类一键跑通!
人工智能·深度学习·机器学习·分类·数据挖掘
徐安安ye1 小时前
FlashAttention安全合规:国密/GPU安全卡口与等保2.0隐私要求
人工智能·安全·机器学习