【NLP】 38. Agent

什么是 Agent？

一个 Agent 就是能够 理解、思考，并且进行世界交互 的模型系统，并不是纯粹的 prompt 返回器。

它可以：

读取外部数据（文件/API）
使用记忆进行上下文维持
用类Chain-of-Thought (CoT)方式进行多段思考
使用工具（调用接口）进行行动

代表方式：ReAct 模型

ReAct = Reasoning + Acting

使模型在解决问题时的每一步，要么做思考（Thought），要么进行行动（Action）

示例：

Thought: I want to find the latest news about electric vehicles.
Action: Search("latest electric vehicle news")

通过 prompt 给出格式，展示了没有经过频繁训练的大语言模型也能有效拟真场景操作。

各类系统创造 Agent 方法

单个 LLM + Prompt（如 ReAct、Reflexion）

通过设计精巧的提示（prompt），即使是单个 LLM 也可以模拟出"思考---行动"过程。ReAct 让模型在输出中明确分出 Thought 与 Action，增强推理与操作联动。Reflexion 则在每轮尝试失败后引导模型生成自我反思文本，形成闭环提升效果。

多个 LLM 分工协作（如 AutoGen）

将复杂任务拆解为多个角色协作处理，如规划者（Manager）、执行者（Editor）、校验者（Verifier）。每个角色由单独的 LLM 扮演，协作完成复杂决策流程，提升系统稳定性与准确性。

模型集合动态挑选（如 DyLAN）

DyLAN 不直接用固定模型，而是在任务开始阶段从多个候选 LLM 中动态挑选表现最优的代理组合，形成"专家团队"，提升适应性与任务成功率。

多模态/物理化 Agent（如 WebArena, 机器人）

这类 Agent 不再局限于文本，而具备真实环境交互能力，如浏览网页、操控机器人。WebArena 提供了包含多类网页环境的模拟测试平台，而机器人代理则将自然语言转为实际物理动作。

原型模型 + 记忆系统

短期记忆：Prompt 历史，保持上下文一致性
长期记忆：结合 RAG 机制，通过查询 BM25 或 embedding 检索外部知识，支撑长期任务或补充事实

原型思考技术

Chain-of-Thought

将复杂问题分解为多个可解释的中间步骤，显著提高模型在数学、逻辑、推理类任务的正确率。

Self-consistency（多数投票）

对同一问题生成多个思维链，再对答案进行投票，选择最一致的那个，从而缓解偶发错误的影响。

Tree of Thought

以树结构展开推理，每一步都有多个"想法"分支，通过搜索与剪枝找到最优解，类似规划或博弈搜索。

Reflexion（反思）

引导模型在任务失败后生成反思文本，结合先前经验进行下一轮尝试，持续优化行为。

行动技术补充：

【Toolformer】

通过在生成文本中嵌入特殊标记，模型可以主动决定是否调用外部 API 工具（如计算器、搜索引擎）。训练中利用自监督方式挖掘出自然文本中的合适调用时机，使模型学会判断何时、如何使用工具以增强准确性。

【WebGPT】

模拟人类浏览网页找答案的行为，模型可发出 Search、Click、Quote 等指令访问网页，并在生成答案时引用证据来源。训练采用 RLHF（人类反馈强化学习），提升回答真实度与信息来源可靠性。

【OpenHands / Anthropic】

让语言模型控制完整的 Shell 环境或图形界面，支持写代码、点击界面元素等多步指令操作，并提供执行日志以便审查调试，是实现实用型 AI Agent 的关键平台。

评价指标 / Benchmark

WebShop

模拟电商购物过程的交互测试环境，考验 Agent 理解复杂购买意图与筛选能力。

WebArena

提供丰富多样的真实网页环境（论坛、电商、文档协作等），评估 Agent 的跨页面长链任务能力。

SWE-Bench

来自 GitHub 的真实编程修复任务集，要求模型根据 Issue 编写补丁代码并通过测试，是对代码生成和理解的严苛挑战。

PrivacyLens

通过构造包含敏感信息的用户交互轨迹，测试模型在隐私保护与泄露防范上的表现，衡量其遵守社会规范的能力。

总结

Agent = LLM + memory + tools + 世界交互
ReAct 是一种 prompt-based agent 实现方案
Acting = 超越 token generation，进行世界操作
构建 agent 需要多模态输入、长期记忆、工具集成等支撑能力
新型 benchmark 可衡量推理能力、隐私合规性、网页交互能力等关键维度

LLM Agent 是未来智能系统的关键形态，掌握其结构与方法有助于我们构建更可靠、更通用的 AI 应用。