【Datawhale2604】Hello-agents task01 智能体经典范式构建

系列文章目录


文章目录


前言


一、ReAct

ReAct 本质是一个闭环控制系统

  • LLM 是控制器,tool 是执行器,环境是被控对象,Observation 是传感器反馈。
环节 控制论对应 作用 教材代码体现
Thought 状态估计+策略计算 基于历史观测,决定下一步动作 response_text 中的思考段落
Action 控制指令下发 调用具体工具(Search/Calculator等) Action: Search[...]
Observation 传感器反馈 返回环境真实状态,修正模型认知 tool_function(tool_input) 返回值
History 状态记忆寄存器 累积 (a, o) 对,维持上下文连续性 self.history.append(...)
  • 用 Mermaid 看清数据及状态如何在循环中累积:

输出 Thought+Action
Finish 答案
ToolName input
返回 Observation
拼接为新 Prompt
用户问题
初始化 Prompt
调用 LLM
正则解析
返回最终结果
调用 ToolExecutor
更新 self.history


二、Plan-and-Solve


三、 Reflection

  • Reflection 不是"多调一次 LLM",而是认知范式的根本切换
范式 认知模式 人类类比 核心缺陷
Reflection 生成-评审-重构闭环 写论文→导师批注→修改二稿→终稿 成本高,但产出质量呈阶梯式跃升
  1. 角色解耦:LLM 不擅长"自己检查自己"。Reflection 强制将模型拆分为 Generator 创作者Critic 评审员,利用不同 Prompt 激活不同的参数子空间。
  2. 质量驱动 vs 进度驱动:前两种范式追求"完成任务",Reflection 追求"达到质量标准"。它把任务从开环控制(Open-loop)升级为带监督的闭环控制(Closed-loop with Supervisor)。
  3. 收敛思维:人类会判断什么时候该停止再修改了。Reflection 必须内置收敛判定逻辑,否则会变成无限内耗。

Iteration_Loop
输入任务 Task
调用 Generator 生成 O_0
存入 Memory,触发 Critic
生成反馈 F_i
未达到收敛标准
更新 O_{i+1},存入 Memory
满足收敛条件 (e.g., 无需改进/分数≥阈值/达最大轮次)
输出最终方案 O_final
INIT
EXEC
REFLECT
CHECK_SCORE
REFINE
TERMINATE


总结

相关推荐
cxr8289 小时前
高分子复合材料 AI 逆向设计合——学证明、算法实现、验证数据与学术资源全集
人工智能·线性代数·算法
无心水9 小时前
【Harness:落地实战】19、从67%到92%:Hermes学习循环与GEPA算法如何实现AI自进化?——自进化核心引擎深度解析
人工智能·性能优化·openclaw·harness·hermes·honcho
huan1991109 小时前
从机器翻译到智驾:规则派的黄昏与数据革命的终局 (七)
人工智能·自然语言处理·机器翻译
想你依然心痛9 小时前
HarmonyOS 6(API 23)实战:基于悬浮导航、沉浸光感与HMAF的“图谱智脑“——PC端AI智能体沉浸式知识图谱构建工作台
人工智能·ar·知识图谱·harmonyos·智能体
仔仔 v1.09 小时前
第四章: AI图像生成与视频制作实战指南
人工智能
ZengLiangYi9 小时前
如何解析 5 种完全不同格式的 AI 对话
javascript·人工智能·算法
写做四月一日的四月一日9 小时前
在安卓手机上安装小龙虾openclaw并配置QQ机器人接入
android·人工智能
@小阿宝9 小时前
PPF(Point-Pair Feature,点对特征)
人工智能·机器学习
IronMurphy9 小时前
AI Agent学习day6 从 MCP 到 RAG 记忆:AI Agent 项目中的三块核心基础
人工智能·学习
cxr8289 小时前
高分子复合材料 AI 逆向设计合——生态级专业补充与产业部署框架
人工智能·材料逆向设计合成