【Datawhale2604】Hello-agents task01 智能体经典范式构建

系列文章目录


文章目录


前言


一、ReAct

ReAct 本质是一个闭环控制系统

  • LLM 是控制器,tool 是执行器,环境是被控对象,Observation 是传感器反馈。
环节 控制论对应 作用 教材代码体现
Thought 状态估计+策略计算 基于历史观测,决定下一步动作 response_text 中的思考段落
Action 控制指令下发 调用具体工具(Search/Calculator等) Action: Search[...]
Observation 传感器反馈 返回环境真实状态,修正模型认知 tool_function(tool_input) 返回值
History 状态记忆寄存器 累积 (a, o) 对,维持上下文连续性 self.history.append(...)
  • 用 Mermaid 看清数据及状态如何在循环中累积:

输出 Thought+Action
Finish 答案
ToolName input
返回 Observation
拼接为新 Prompt
用户问题
初始化 Prompt
调用 LLM
正则解析
返回最终结果
调用 ToolExecutor
更新 self.history


二、Plan-and-Solve


三、 Reflection

  • Reflection 不是"多调一次 LLM",而是认知范式的根本切换
范式 认知模式 人类类比 核心缺陷
Reflection 生成-评审-重构闭环 写论文→导师批注→修改二稿→终稿 成本高,但产出质量呈阶梯式跃升
  1. 角色解耦:LLM 不擅长"自己检查自己"。Reflection 强制将模型拆分为 Generator 创作者Critic 评审员,利用不同 Prompt 激活不同的参数子空间。
  2. 质量驱动 vs 进度驱动:前两种范式追求"完成任务",Reflection 追求"达到质量标准"。它把任务从开环控制(Open-loop)升级为带监督的闭环控制(Closed-loop with Supervisor)。
  3. 收敛思维:人类会判断什么时候该停止再修改了。Reflection 必须内置收敛判定逻辑,否则会变成无限内耗。

Iteration_Loop
输入任务 Task
调用 Generator 生成 O_0
存入 Memory,触发 Critic
生成反馈 F_i
未达到收敛标准
更新 O_{i+1},存入 Memory
满足收敛条件 (e.g., 无需改进/分数≥阈值/达最大轮次)
输出最终方案 O_final
INIT
EXEC
REFLECT
CHECK_SCORE
REFINE
TERMINATE


总结

相关推荐
njsgcs2 小时前
我需要ai理解鼠标在工程图里的位置,要能理解标注的任务
人工智能
AI大法师2 小时前
从 Firefox Kit 看懂品牌升级的正确顺序
大数据·人工智能·设计模式·firefox
程砚成2 小时前
小微美业的生存突围:当 “小而美” 遇上轻量化数字化
人工智能
杜子不疼.2 小时前
Python多模态AI开发指南:让AI同时理解文字、图片和语音
开发语言·人工智能·python
IT_陈寒2 小时前
SpringBoot自动配置的坑把我埋了半小时
前端·人工智能·后端
nap-joker2 小时前
利用多模态神经影像数据进行阿尔茨海默病分类和检测的可解释性尖峰神经网络框架
人工智能·深度学习·神经网络
紧固视界2 小时前
设备防松如何选用垫圈和挡圈?常见方案与应用解析_6月上海紧固件展
大数据·人工智能·紧固件·上海紧固件展·紧固件展·上海紧固件专业展
小饕2 小时前
RAG学习之 - 检索质量评估指标详解:从概念到代码实战
开发语言·人工智能·python·学习
搬砖者(视觉算法工程师)2 小时前
关于英伟达的世界模型Cosmos的介绍
人工智能