Agent - Reflection

图中展示了一种带有反思机制的智能体架构。智能体从环境中接收观察并记录为轨迹（短期记忆），Actor 基于当前轨迹与经验记忆生成动作。与此同时，Evaluator 对轨迹进行评估，并结合外部反馈触发 Self-reflection 模块生成反思文本。该反思结果被写入 Experience（长期记忆），从而为后续决策提供可迁移的经验支持。通过这种方式，智能体不仅能够在当前任务中行动，还能够跨任务地积累和利用经验，实现持续改进。

最下面是 Environment 。

环境给智能体输入 Observation ，智能体对环境输出 Action。这就是最基本的 agent loop。

环境的观察先进入 Trajectory（短期记忆） 。

这里记录的是当前这一轮、这一段任务过程中的轨迹，比如看到了什么、做了什么、得到了什么结果。它更像"工作记忆"或"当前会话上下文"。

然后 Actor 读取两类东西来决定下一步动作：

一类是 Trajectory ，也就是眼下这局发生了什么；

另一类是 Experience（长期记忆），也就是过去反思后沉淀下来的经验。

所以 Actor 不是只看当前局面，也不是只靠历史经验，而是把两者结合起来行动。

左边这条支路是评估与反思链。

Evaluator 读取当前 Trajectory ，对这段过程做判断。

它给出的东西，图里叫 Internal feedback，就是内部评估反馈。比如：

哪一步做错了
哪个策略低效
哪种行为导致失败
哪类提示词更有效

与此同时，图上方还有 External feedback 。

这表示外部世界也可能直接提供反馈，比如环境奖励、用户评价、任务是否成功、人工批注等。

然后 Self-reflection 会综合这些反馈进行反思，输出 Reflective text 。

这个 reflective text 不是动作本身，而是"经验总结"式的东西，比如：

下次遇到类似任务，先检查约束条件
当前策略在预算受限场景下不可靠
在信息不完整时，应先查询而不是直接回答

这个反思结果再被写入 Experience（长期记忆）。

于是，长期记忆不是原始轨迹的机械堆积，而是经过提炼的经验。

所以这张图最关键的意思是：

Trajectory 存的是"这一次发生了什么"；
Experience 存的是"从这些经历里学到了什么"。

这两者不是一回事。

前者偏具体、短期、原始；

后者偏抽象、长期、可迁移。