【Agent智能体8 | 反思设计模式-大语言模型反思机制的四个演进阶段】

声明:本篇博客是以吴恩达的【Agent智能体】教程为基础,并对其中的内容做了笔记整理以及个人收获的总结。

大模型的反思机制跟人类一样,有时会反思自己的输出并寻求改进。这篇文章主要是介绍反思机制的演进过程。

人类的反思机制(Reflection - humans)

这张图展示了人类在日常工作中是如何运用"反思"的:

  • 人类写出一封初版邮件
  • 发现问题 :在发送前进行自我检查,发现了几个问题:
    • "下个月(next month)"缺乏具体日期。
    • 把"free"打成了"fre"。
    • 忘记在文末署名。
  • 改进:经过反思和修改,输出了完善后的第二版邮件(Email V2)

总结 :写初稿 →\rightarrow→ 审查 →\rightarrow→ 修改出终稿,这是人类保证工作质量的本能习惯。

智能体 AI 的反思机制(Reflection - Agentic AI)

智能体的反思机制也是类似的,我们可以将人类的反思机制映射到 AI 大语言模型的工作流中:

  • 开始:给 LLM 下达"写一封邮件"的指令,LLM 生成第一版草稿(Email V1)。
  • 反思 :在传统的应用中,V1 会被直接输出给用户。但在智能体工作流中,系统会将被放入一个硬编码的反馈循环中,要求 LLM "反思并写出改进后的第二版(Reflect and write improved second draft)"。
  • 通过让 LLM 扮演"审查者"的角色,对自己的初始输出进行纠错,从而输出质量更高的最终版本(Email v2)。

这个例子是把这个流程硬编码 下来,先提示LLM写一遍再提示它反思和改进

类似的流程也能优化其他类型的输出,例子如下:

用于改进代码的反思(Reflection to improve code)

这个例子,展示了反思机制在编程中的具体应用:

  • 开始:要求写一段代码(task X),第一个 LLM 生成初版代码(code V1)。
  • 反思:多模型协作 :初版代码被送入LLM 2进行审查。图中标注:LLM 2 可以是一个不同的模型(例如专门针对代码或逻辑训练的推理模型)
  • LLM 2 检查 Bug 并写出改进后的第二版代码(do_task_v2)。

这个例子告诉我们:在复杂任务中,生成代码和审查代码可以由不同的 AI 模型负责,利用"交叉检查"来提升代码的质量,不同的LLM有不同的优势,要合理利用!

与其只让LLM反思代码,但事实证明,外部反馈(来自LLM之外的新信息),反思的效果会更加强大,例子如下:

结合外部反馈的反思(Reflection with external feedback)

这个图展示了反思机制的最高阶形态------引入真实的外部运行环境

  • 开始 :LLM 写出初版代码(code V1)后,不再仅仅依赖另一个模型去找 Bug,而是直接执行代码(execute code)
  • 获得真实反馈 :代码运行后会产生实际的输出或报错信息(例如图中的 SyntaxError: unterminated string literal... 语法错误)。
  • 基于反馈的反思:将这些真实的报错信息和初版代码一起交给 LLM。LLM 基于具体的执行错误进行反思,从而精准定位并修复问题,输出第二版代码。

总结一句话:通过"实践"来检验真理。这种利用反馈进行的方式比LLM自己反思效果要更好,输出的结果质量要更高!

总结

人类本能 →\rightarrow→ AI 内部自我反思 →\rightarrow→ 多 AI 模型交叉反思 →\rightarrow→ 基于外部真实环境反馈的反思。

通过这篇文章,我们不能再简单的把大模型当成一个简单的"你问我答"的聊天工具(传统的直接生成),而是要把它看作一个拥有"反思能力"的智能体(Agent)

如果这篇文章对你有帮助,欢迎点赞、评论、关注、收藏。你们的支持是我前进的动力!

相关推荐
大刚测试开发实战6 小时前
TestHub V0.2.2版本发布,附更新指南
人工智能
冬奇Lab7 小时前
Agent 系列(21):Harness 测试工程——45 个测试怎么设计,以及它发现了什么 bug
人工智能·llm·agent
冬奇Lab8 小时前
每日一个开源项目(第133篇):EchoBird - 把 AI 工具的安装和部署做成傻瓜操作
人工智能·开源·资讯
IT_陈寒9 小时前
Redis的SETNX并发问题让我加了三天班
前端·人工智能·后端
用户51914958484510 小时前
Windows 渗透测试载荷加载器 POC 工具集
人工智能·aigc
大树8811 小时前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
通信小呆呆11 小时前
当算法有了“五感”:多模态数据融合如何向人体感官协同学习?
人工智能·学习·算法·机器学习·机器人
施小赞11 小时前
普通 RAG vs GraphRAG 核心对比
人工智能·ai
EAIReport11 小时前
RuoYi-AI 企业级AI开发平台实战详解
人工智能
HelloWorld__来都来了11 小时前
【每日学术速报】2026-06-15
人工智能·具身智能