Reflexion:让 Agent 从错误中学习

Reflexion 到底是什么?

Reflexion 是一种面向语言智能体的学习框架。它把环境反馈转写成自然语言形式的 self-reflection ,再将这些经验加入后续上下文。

这里的"学习"主要发生在上下文与记忆中,不等于更新 LLM 的权重。因而它比重新训练或 Fine-tuning 更轻量,也更容易观察 Agent 是如何修正策略的。

三个角色,加上一段记忆

Reflexion 将一次任务拆成执行、评价和反思三个职责。它们可以由不同模型承担,也可以由同一个 LLM 使用不同 Prompt 分别扮演。

一次完整迭代怎样运行?

可以把 Reflexion 理解成一个带复盘能力的 Agent loop。

它与 ReAct、传统 RL 有什么区别?

方法 核心机制 是否更新模型参数 主要优势
ReAct 交替进行 Reasoning 与 Acting 通常不更新 能够边思考边调用工具、观察环境
Reflexion 在 ReAct/CoT 之外增加评价、反思和记忆 通常不更新 利用语言经验纠正后续策略
Traditional RL 根据奖励信号优化策略参数 通常需要 适合大规模、可重复训练的环境
相关推荐
袁小皮皮不皮13 小时前
1.HCIP BFD 学习笔记(优化版)
服务器·网络·笔记·网络协议·学习·智能路由器·ip
装不满的克莱因瓶13 小时前
【自动驾驶领域】学习 Cityscapes 数据集——城市街景语义理解的标准基准
人工智能·pytorch·python·深度学习·学习·机器学习·自动驾驶
清辞85314 小时前
产品经理需求推进流程
大数据·深度学习·学习·产品经理
YM52e15 小时前
鸿蒙PC ArkTS 声明合并问题深度解析与最佳实践
学习·华为·harmonyos·鸿蒙·鸿蒙系统
海兰16 小时前
【实用程序】电商销售分析仪表盘 — 从零搭建一个AI参与的全栈数据洞察系统
人工智能·学习·算法
ken223216 小时前
在 Libreoffice Calc中输入自定义表情字符时,需要保存之后,才能正常显示
学习
zwenqiyu16 小时前
P5283 [十二省联考 2019] 异或粽子题解
c++·学习·算法
编程圈子16 小时前
电机驱动开发学习2. 直流无刷电机工作原理
驱动开发·学习
MartinYeung517 小时前
[论文学习]大型语言模型(LLM)安全与隐私-基于善、恶、丑的深度分析
学习·安全·语言模型