
图中展示了一种带有反思机制的智能体架构。智能体从环境中接收观察并记录为轨迹(短期记忆),Actor 基于当前轨迹与经验记忆生成动作。与此同时,Evaluator 对轨迹进行评估,并结合外部反馈触发 Self-reflection 模块生成反思文本。该反思结果被写入 Experience(长期记忆),从而为后续决策提供可迁移的经验支持。通过这种方式,智能体不仅能够在当前任务中行动,还能够跨任务地积累和利用经验,实现持续改进。
最下面是 Environment 。
环境给智能体输入 Observation ,智能体对环境输出 Action。这就是最基本的 agent loop。
环境的观察先进入 Trajectory(短期记忆) 。
这里记录的是当前这一轮、这一段任务过程中的轨迹,比如看到了什么、做了什么、得到了什么结果。它更像"工作记忆"或"当前会话上下文"。
然后 Actor 读取两类东西来决定下一步动作:
一类是 Trajectory ,也就是眼下这局发生了什么;
另一类是 Experience(长期记忆),也就是过去反思后沉淀下来的经验。
所以 Actor 不是只看当前局面,也不是只靠历史经验,而是把两者结合起来行动。
左边这条支路是评估与反思链。
Evaluator 读取当前 Trajectory ,对这段过程做判断。
它给出的东西,图里叫 Internal feedback,就是内部评估反馈。比如:
- 哪一步做错了
- 哪个策略低效
- 哪种行为导致失败
- 哪类提示词更有效
与此同时,图上方还有 External feedback 。
这表示外部世界也可能直接提供反馈,比如环境奖励、用户评价、任务是否成功、人工批注等。
然后 Self-reflection 会综合这些反馈进行反思,输出 Reflective text 。
这个 reflective text 不是动作本身,而是"经验总结"式的东西,比如:
- 下次遇到类似任务,先检查约束条件
- 当前策略在预算受限场景下不可靠
- 在信息不完整时,应先查询而不是直接回答
这个反思结果再被写入 Experience(长期记忆)。
于是,长期记忆不是原始轨迹的机械堆积,而是经过提炼的经验。
所以这张图最关键的意思是:
Trajectory 存的是"这一次发生了什么";
Experience 存的是"从这些经历里学到了什么"。
这两者不是一回事。
前者偏具体、短期、原始;
后者偏抽象、长期、可迁移。