Agent - Reflection

图中展示了一种带有反思机制的智能体架构。智能体从环境中接收观察并记录为轨迹(短期记忆),Actor 基于当前轨迹与经验记忆生成动作。与此同时,Evaluator 对轨迹进行评估,并结合外部反馈触发 Self-reflection 模块生成反思文本。该反思结果被写入 Experience(长期记忆),从而为后续决策提供可迁移的经验支持。通过这种方式,智能体不仅能够在当前任务中行动,还能够跨任务地积累和利用经验,实现持续改进。

最下面是 Environment

环境给智能体输入 Observation ,智能体对环境输出 Action。这就是最基本的 agent loop。

环境的观察先进入 Trajectory(短期记忆)

这里记录的是当前这一轮、这一段任务过程中的轨迹,比如看到了什么、做了什么、得到了什么结果。它更像"工作记忆"或"当前会话上下文"。

然后 Actor 读取两类东西来决定下一步动作:

一类是 Trajectory ,也就是眼下这局发生了什么;

另一类是 Experience(长期记忆),也就是过去反思后沉淀下来的经验。

所以 Actor 不是只看当前局面,也不是只靠历史经验,而是把两者结合起来行动。


左边这条支路是评估与反思链。

Evaluator 读取当前 Trajectory ,对这段过程做判断。

它给出的东西,图里叫 Internal feedback,就是内部评估反馈。比如:

  • 哪一步做错了
  • 哪个策略低效
  • 哪种行为导致失败
  • 哪类提示词更有效

与此同时,图上方还有 External feedback

这表示外部世界也可能直接提供反馈,比如环境奖励、用户评价、任务是否成功、人工批注等。

然后 Self-reflection 会综合这些反馈进行反思,输出 Reflective text

这个 reflective text 不是动作本身,而是"经验总结"式的东西,比如:

  • 下次遇到类似任务,先检查约束条件
  • 当前策略在预算受限场景下不可靠
  • 在信息不完整时,应先查询而不是直接回答

这个反思结果再被写入 Experience(长期记忆)

于是,长期记忆不是原始轨迹的机械堆积,而是经过提炼的经验


所以这张图最关键的意思是:

Trajectory 存的是"这一次发生了什么";
Experience 存的是"从这些经历里学到了什么"。

这两者不是一回事。

前者偏具体、短期、原始;

后者偏抽象、长期、可迁移。