Reflexion:让 Agent 从错误中学习

Reflexion 到底是什么?

Reflexion 是一种面向语言智能体的学习框架。它把环境反馈转写成自然语言形式的 self-reflection ,再将这些经验加入后续上下文。

这里的"学习"主要发生在上下文与记忆中,不等于更新 LLM 的权重。因而它比重新训练或 Fine-tuning 更轻量,也更容易观察 Agent 是如何修正策略的。

三个角色,加上一段记忆

Reflexion 将一次任务拆成执行、评价和反思三个职责。它们可以由不同模型承担,也可以由同一个 LLM 使用不同 Prompt 分别扮演。

一次完整迭代怎样运行?

可以把 Reflexion 理解成一个带复盘能力的 Agent loop。

它与 ReAct、传统 RL 有什么区别?

方法 核心机制 是否更新模型参数 主要优势
ReAct 交替进行 Reasoning 与 Acting 通常不更新 能够边思考边调用工具、观察环境
Reflexion 在 ReAct/CoT 之外增加评价、反思和记忆 通常不更新 利用语言经验纠正后续策略
Traditional RL 根据奖励信号优化策略参数 通常需要 适合大规模、可重复训练的环境
相关推荐
weixin_423533998 小时前
AFSim学习-自定义Processor开发2-将平台状态存储到csv
学习
bu_shuo8 小时前
计算机二级学习-查找和排序
学习·算法·排序算法
爱奥尼欧8 小时前
轻量级可扩展日志框架-异步日志与系统集成
开发语言·数据库·c++·学习
MartinYeung58 小时前
[论文学习]BackdoorLLM:大语言模型后门攻击与防御的综合性基准——深度解析
人工智能·学习·语言模型
凉、介8 小时前
KVM + QEMU 虚拟化
笔记·学习·嵌入式·arm·qemu·虚拟化·kvm
承渊政道8 小时前
【MySQL数据库学习】(MySQL访问、连接池原理与简易网站数据流动)
数据库·学习·mysql·mysql访问·连接池原理
LiaoWL1238 小时前
【SpringBoot合集-03】Spring Boot 启动过程学习
java·spring boot·学习
Byron__18 小时前
AI学习_06_短期记忆与长期记忆
人工智能·python·学习
试剂界的爱马仕19 小时前
Anti-mouse PD-1 mAb (Clone RMP1-14) 与 Axitinib 小鼠实验使用方案整理汇总
大数据·人工智能·深度学习·学习
Gp7HH6hrE20 小时前
OpenAI 与 Anthropic 开放公共学习平台
人工智能·学习·chatgpt