Agent思维模式 | 评估

Agent思维模式：ReAct、Plan and Execute、Reflection

Agent 处理任务时的不同推理与执行策略

ReAct 是 Reasoning and Act 的缩写，本质上是一种**边规划边执行**的混合模式

复制代码

用户输入 → LLM分析问题 
    ↓
推理 (Reasoning) → 行动 (Act) → 推理 → 行动 → ...
    ↓
返回结果

与 ReAct 不同，Plan and Execute 采用**两阶段分离**的策略

Reflection 即反思，是 Agent 的一种自我修正机制

维度	ReAct	Plan and Execute	Reflection
执行顺序	边想边做	先想后做	做完后想
灵活性	高	中	需要其他模式配合
计算成本	中	低	视情况而定
适用场景	动态、复杂任务	明确、线性任务	错误修正、自我优化

Evaluation-评估，是对Agent进行系统性评价的过程

由于Agent基于LLM生成答案，其评估标准并非放之四海而皆准，而是需要根据不同的应用场景和落地方向进行针对性设计。

评估的目的不仅仅是区分"能用"和"不能用"（这通常是暂时性判断），更核心的目的是通过评估进行调优。具体来说：

这一思维方式适用于所有软件工程类和科研类项目。例如：一个可运行的游戏，虽然功能正常，但仍可优化代码降低CPU/内存占用、减少网络流量消耗。

从用户视角出发，评估Agent从输入到输出是否合格。这是基础层面的判断，如果连基本匹配都做不到，Agent本身就不可用。

针对工作流中的具体步骤进行分析和调优。典型工作流包括：

阶段	描述
分析	LLM分析用户输入，理解用户目的/企图
Planner	规划执行步骤（1、2、3、4、5...）
执行	逐个执行每个步骤（如RAG查询、搜索网页、调用工具、写本地文件等）

注：如果是ReAct等推理模式，可能会有更多的循环，由LLM自主决策下一步。

最简单的端对端评估可以用表格形式呈现：

序号	Input	Output	Ground Truth（标准答案）	Score（评分）
1	...	...	...	...
2	...	...	...	...
3	...	...	...	...

评估的具体方式不必拘泥，重点是建立一套符合落地场景的具体标准，用以判断Agent的输出是否正确。