【NLP】 38. Agent

什么是 Agent?

一个 Agent 就是能够 理解、思考,并且进行世界交互 的模型系统,并不是纯粹的 prompt 返回器。

它可以:

  • 读取外部数据(文件/API)
  • 使用记忆进行上下文维持
  • 用类Chain-of-Thought (CoT)方式进行多段思考
  • 使用工具(调用接口)进行行动

代表方式:ReAct 模型

ReAct = Reasoning + Acting

使模型在解决问题时的每一步,要么做思考(Thought),要么进行行动(Action)

示例:

  • Thought: I want to find the latest news about electric vehicles.
  • Action: Search("latest electric vehicle news")

通过 prompt 给出格式,展示了没有经过频繁训练的大语言模型也能有效拟真场景操作。


各类系统创造 Agent 方法

单个 LLM + Prompt(如 ReAct、Reflexion)

通过设计精巧的提示(prompt),即使是单个 LLM 也可以模拟出"思考---行动"过程。ReAct 让模型在输出中明确分出 Thought 与 Action,增强推理与操作联动。Reflexion 则在每轮尝试失败后引导模型生成自我反思文本,形成闭环提升效果。

多个 LLM 分工协作(如 AutoGen)

将复杂任务拆解为多个角色协作处理,如规划者(Manager)、执行者(Editor)、校验者(Verifier)。每个角色由单独的 LLM 扮演,协作完成复杂决策流程,提升系统稳定性与准确性。

模型集合动态挑选(如 DyLAN)

DyLAN 不直接用固定模型,而是在任务开始阶段从多个候选 LLM 中动态挑选表现最优的代理组合,形成"专家团队",提升适应性与任务成功率。

多模态/物理化 Agent(如 WebArena, 机器人)

这类 Agent 不再局限于文本,而具备真实环境交互能力,如浏览网页、操控机器人。WebArena 提供了包含多类网页环境的模拟测试平台,而机器人代理则将自然语言转为实际物理动作。


原型模型 + 记忆系统

  • 短期记忆:Prompt 历史,保持上下文一致性
  • 长期记忆:结合 RAG 机制,通过查询 BM25 或 embedding 检索外部知识,支撑长期任务或补充事实

原型思考技术

Chain-of-Thought

将复杂问题分解为多个可解释的中间步骤,显著提高模型在数学、逻辑、推理类任务的正确率。

Self-consistency(多数投票)

对同一问题生成多个思维链,再对答案进行投票,选择最一致的那个,从而缓解偶发错误的影响。

Tree of Thought

以树结构展开推理,每一步都有多个"想法"分支,通过搜索与剪枝找到最优解,类似规划或博弈搜索。

Reflexion(反思)

引导模型在任务失败后生成反思文本,结合先前经验进行下一轮尝试,持续优化行为。


行动技术补充:

【Toolformer】

通过在生成文本中嵌入特殊标记,模型可以主动决定是否调用外部 API 工具(如计算器、搜索引擎)。训练中利用自监督方式挖掘出自然文本中的合适调用时机,使模型学会判断何时、如何使用工具以增强准确性。

【WebGPT】

模拟人类浏览网页找答案的行为,模型可发出 Search、Click、Quote 等指令访问网页,并在生成答案时引用证据来源。训练采用 RLHF(人类反馈强化学习),提升回答真实度与信息来源可靠性。

【OpenHands / Anthropic】

让语言模型控制完整的 Shell 环境或图形界面,支持写代码、点击界面元素等多步指令操作,并提供执行日志以便审查调试,是实现实用型 AI Agent 的关键平台。


评价指标 / Benchmark

WebShop

模拟电商购物过程的交互测试环境,考验 Agent 理解复杂购买意图与筛选能力。

WebArena

提供丰富多样的真实网页环境(论坛、电商、文档协作等),评估 Agent 的跨页面长链任务能力。

SWE-Bench

来自 GitHub 的真实编程修复任务集,要求模型根据 Issue 编写补丁代码并通过测试,是对代码生成和理解的严苛挑战。

PrivacyLens

通过构造包含敏感信息的用户交互轨迹,测试模型在隐私保护与泄露防范上的表现,衡量其遵守社会规范的能力。


总结

  • Agent = LLM + memory + tools + 世界交互
  • ReAct 是一种 prompt-based agent 实现方案
  • Acting = 超越 token generation,进行世界操作
  • 构建 agent 需要多模态输入、长期记忆、工具集成等支撑能力
  • 新型 benchmark 可衡量推理能力、隐私合规性、网页交互能力等关键维度

LLM Agent 是未来智能系统的关键形态,掌握其结构与方法有助于我们构建更可靠、更通用的 AI 应用。

相关推荐
AI视觉网奇1 分钟前
音频分类模型笔记
人工智能·python·深度学习
Dante但丁4 分钟前
手扒Github项目文档级知识图谱构建框架RAKG(保姆级)Day4
人工智能
用户51914958484511 分钟前
使用JavaScript与CSS创建"移动高亮"导航栏
人工智能·aigc
Java中文社群20 分钟前
淘宝首位程序员离职,竟投身AI新公司做这事!
人工智能·后端·程序员
失散1331 分钟前
自然语言处理——02 文本预处理(上)
人工智能·自然语言处理
Listennnn1 小时前
nuScence数据集
人工智能
duration~1 小时前
SpringAI集成MCP
人工智能·后端·spring·ai
用户5191495848451 小时前
Linux内核UAF漏洞利用实战:Holstein v3挑战解析
人工智能·aigc
nenchoumi31191 小时前
Tello无人机与LLM模型控制 ROS
人工智能·语言模型·机器人·无人机
居然JuRan2 小时前
每天拆解一个AI知识: Context Engineering
人工智能