Agent思维模式 | 评估

Agent思维模式:ReAct、Plan and Execute、Reflection

Agent 处理任务时的不同推理与执行策略

概念 全称 特点
ReAct R easoning A nd Act 边规划、边执行
Plan and Execute - 先规划、后执行
Reflection - 反思机制

ReAct(Reasoning and Act)

ReAct 是 Reasoning and Act 的缩写,本质上是一种**边规划边执行**的混合模式

  • 交替进行 :推理(Reasoning)与行动(Acting)交替执行
  • 即时调整 :根据当前执行结果动态调整后续计划
  • 适合复杂任务 :能够处理需要综合分析和多步骤执行的问题

处理流程

复制代码
用户输入 → LLM分析问题 
    ↓
推理 (Reasoning) → 行动 (Act) → 推理 → 行动 → ...
    ↓
返回结果

Plan and Execute(先规划后执行)

与 ReAct 不同,Plan and Execute 采用**两阶段分离**的策略

  • 阶段一:先完整规划整个任务流程

  • 阶段二:再按计划顺序执行

  • 更适合:任务边界清晰、步骤可预见的场景

    用户输入 → 完整规划 (Plan)

    按顺序执行 (Execute)

    返回结果


Reflection(反思)

Reflection 即反思,是 Agent 的一种自我修正机制

  • 对执行结果进行评估
  • 识别错误或不足
  • 调整策略后重新执行

维度 ReAct Plan and Execute Reflection
执行顺序 边想边做 先想后做 做完后想
灵活性 需要其他模式配合
计算成本 视情况而定
适用场景 动态、复杂任务 明确、线性任务 错误修正、自我优化

Agent Evaluation

Evaluation-评估,是对Agent进行系统性评价的过程

由于Agent基于LLM生成答案,其评估标准并非放之四海而皆准,而是需要根据不同的应用场景和落地方向进行针对性设计。

为什么要评估

评估的目的不仅仅是区分"能用"和"不能用"(这通常是暂时性判断),更核心的目的是通过评估进行调优。具体来说:

  1. 发现问题所在
  2. 指导进一步优化方向
  3. 建立更细致、更深入的评估流程

这一思维方式适用于所有软件工程类和科研类项目。例如:一个可运行的游戏,虽然功能正常,但仍可优化代码降低CPU/内存占用、减少网络流量消耗。

评估的两种类型

端对端评估

从用户视角出发,评估Agent从输入到输出是否合格。这是基础层面的判断,如果连基本匹配都做不到,Agent本身就不可用。

非端对端评估(步骤级评估)

针对工作流中的具体步骤进行分析和调优。典型工作流包括:

阶段 描述
分析 LLM分析用户输入,理解用户目的/企图
Planner 规划执行步骤(1、2、3、4、5...)
执行 逐个执行每个步骤(如RAG查询、搜索网页、调用工具、写本地文件等)

注:如果是ReAct等推理模式,可能会有更多的循环,由LLM自主决策下一步。

如何做评估

最简单的端对端评估可以用表格形式呈现:

序号 Input Output Ground Truth(标准答案) Score(评分)
1 ... ... ... ...
2 ... ... ... ...
3 ... ... ... ...

评估的具体方式不必拘泥,重点是建立一套符合落地场景的具体标准,用以判断Agent的输出是否正确。

核心要点

  • 评估标准需要根据应用场景定制
  • 评估的真正目的是调优,而非简单的通过/失败判断
  • 端对端评估看整体,非端对端评估看细节
  • 两种评估结合使用,才能全面提升Agent质量
相关推荐
lauo1 小时前
从0.04%到即插即用:RedSkill的种草困境与ibbot手机青春版的Token经济反击战
人工智能·智能手机
AI刀刀1 小时前
文心粘贴到 word 格式混乱,AI 导出鸭智能转文档零失真
人工智能·c#·word·ai导出鸭
老H科研技术1 小时前
第 02 篇:5 分钟搭建第一个 MCP 服务器
大数据·运维·服务器·人工智能·学习·aigc·ai编程
jinxindeep1 小时前
世界模型:架构、方法、推理与应用全景综述
人工智能·架构·机器人
zhangfeng11331 小时前
非传统架构 AI 算力卡前沿研究报告:技术痛点、破局路2021-2026
人工智能·语言模型·transformer·gpu算力·芯片
兴通物联科技1 小时前
CRPT 俄罗斯诚信标签数据采集系统架构与 CSV 合规文件生成原理
大数据·图像处理·人工智能·计算机视觉·系统架构
2601_951735411 小时前
2026江苏单招高中数学双休长期班白皮书
人工智能·白皮书·2026江苏单招·高中数学双休班
_Evan_Yao1 小时前
为 LLM 预留“插座”:设计可插拔的 AI 能力底座
java·人工智能·后端·python
Veggie261 小时前
【Scala PyTorch深度学习】PyTorch On Scala系列课程 第十四章 29 PyTorch模型扩展自定义Module【AI Infra3】[PyTorch Scala硕士研一课程】
人工智能·深度学习·scala