【Datawhale2604】Hello-agents task01 智能体经典范式构建

系列文章目录


文章目录


前言


一、ReAct

ReAct 本质是一个闭环控制系统

  • LLM 是控制器,tool 是执行器,环境是被控对象,Observation 是传感器反馈。
环节 控制论对应 作用 教材代码体现
Thought 状态估计+策略计算 基于历史观测,决定下一步动作 response_text 中的思考段落
Action 控制指令下发 调用具体工具(Search/Calculator等) Action: Search[...]
Observation 传感器反馈 返回环境真实状态,修正模型认知 tool_function(tool_input) 返回值
History 状态记忆寄存器 累积 (a, o) 对,维持上下文连续性 self.history.append(...)
  • 用 Mermaid 看清数据及状态如何在循环中累积:

输出 Thought+Action
Finish 答案
ToolName input
返回 Observation
拼接为新 Prompt
用户问题
初始化 Prompt
调用 LLM
正则解析
返回最终结果
调用 ToolExecutor
更新 self.history


二、Plan-and-Solve


三、 Reflection

  • Reflection 不是"多调一次 LLM",而是认知范式的根本切换
范式 认知模式 人类类比 核心缺陷
Reflection 生成-评审-重构闭环 写论文→导师批注→修改二稿→终稿 成本高,但产出质量呈阶梯式跃升
  1. 角色解耦:LLM 不擅长"自己检查自己"。Reflection 强制将模型拆分为 Generator 创作者Critic 评审员,利用不同 Prompt 激活不同的参数子空间。
  2. 质量驱动 vs 进度驱动:前两种范式追求"完成任务",Reflection 追求"达到质量标准"。它把任务从开环控制(Open-loop)升级为带监督的闭环控制(Closed-loop with Supervisor)。
  3. 收敛思维:人类会判断什么时候该停止再修改了。Reflection 必须内置收敛判定逻辑,否则会变成无限内耗。

Iteration_Loop
输入任务 Task
调用 Generator 生成 O_0
存入 Memory,触发 Critic
生成反馈 F_i
未达到收敛标准
更新 O_{i+1},存入 Memory
满足收敛条件 (e.g., 无需改进/分数≥阈值/达最大轮次)
输出最终方案 O_final
INIT
EXEC
REFLECT
CHECK_SCORE
REFINE
TERMINATE


总结

相关推荐
猿人谷1 小时前
不只是 CPU 阈值:STAR 如何用 GAT + Transformer 做容器级自动扩缩容?
人工智能·算法
说了很好2 小时前
PyTorch从零搭建DDPM:时间嵌入+UNet网络+扩散调度完整复现
人工智能
Bigfish_coding2 小时前
前端转agent-【python】-06 长期记忆(向量数据库 + 嵌入)
人工智能
小林ixn2 小时前
别再手写Prompt了!用AI Loop实现自动化自我迭代,效率提升10倍
人工智能·自动化运维
说了很好2 小时前
逐行注释DDPM源码:正向加噪、逆向去噪、MSE损失全流程复现
人工智能
Dilee2 小时前
Spring AI 1.1.7 接入 MCP:Filesystem Server 最小 Demo
人工智能·后端
Token炼金师2 小时前
大模型推理超参数原理详解
人工智能
Token炼金师2 小时前
大模型训练超参数:从Loss曲面到收敛策略的底层逻辑
人工智能
后端小肥肠2 小时前
Skill 囤了一堆却用不起来?我用 Codex 写了个整理神器
人工智能·agent
魏祖潇3 小时前
从"会聊天"到"能干活":用 OpenCode 给自己找个 AI 搭子
人工智能